scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

作者:pythoner 时间:2021-03-20 02:55:59 

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:


# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
 def __init__(self):
   self.server = settings['MONGODB_SERVER']
   self.port = settings['MONGODB_PORT']
   self.db = settings['MONGODB_DB']
   self.col = settings['MONGODB_COLLECTION']
   connection = pymongo.Connection(self.server, self.port)
   db = connection[self.db]
   self.collection = db[self.col]
 def process_item(self, item, spider):
   err_msg = ''
   for field, data in item.items():
     if not data:
       err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
   if err_msg:
     raise DropItem(err_msg)
   self.collection.insert(dict(item))
   log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
       level=log.DEBUG, spider=spider)
   return item

希望本文所述对大家的python程序设计有所帮助。

标签:scrapy,采集,mongodb
0
投稿

猜你喜欢

  • Python Django view 两种return的实现方式

    2022-05-03 16:07:04
  • Python中单线程、多线程和多进程的效率对比实验实例

    2022-12-01 09:25:55
  • ORACLE数据库查看执行计划的方法

    2012-06-06 20:15:52
  • Elasticsearch之倒排索引及索引操作

    2023-10-28 00:38:38
  • 浅述七大主流数据库

    2011-08-05 18:21:27
  • 关于Javascript的内存泄漏问题

    2008-04-15 07:46:00
  • javascript this 关键字小提示

    2009-02-03 13:22:00
  • Go语言字符串基础示例详解

    2023-07-17 03:14:56
  • 实例讲解Access数据库在线压缩的实现方法

    2008-11-28 14:29:00
  • 用户体验中的五大要素

    2008-07-07 16:41:00
  • firefox扩展插件制作方法

    2007-10-12 13:50:00
  • Python实战之手写一个搜索引擎

    2023-07-11 21:16:49
  • 优化SQLServer数据库服务器内存配置的策略

    2009-05-13 10:25:00
  • PHP中array_slice函数用法实例详解

    2023-06-20 20:18:04
  • 深入了解Python iter() 方法的用法

    2023-11-05 02:12:37
  • MYSQL中取得最后一条记录

    2010-03-09 16:08:00
  • 定格动画浅析(一)

    2009-07-30 12:50:00
  • Python数学建模PuLP库线性规划进阶基于字典详解

    2022-03-11 18:04:04
  • Python网络编程 Python套接字编程

    2022-06-09 09:41:32
  • Python 数据可视化pyecharts的使用详解

    2021-07-07 20:29:55
  • asp之家 网络编程 m.aspxhome.com