scrapy自定义pipeline类实现将采集数据保存到mongodb的方法
作者:pythoner 时间:2021-03-20 02:55:59
本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:
# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
def __init__(self):
self.server = settings['MONGODB_SERVER']
self.port = settings['MONGODB_PORT']
self.db = settings['MONGODB_DB']
self.col = settings['MONGODB_COLLECTION']
connection = pymongo.Connection(self.server, self.port)
db = connection[self.db]
self.collection = db[self.col]
def process_item(self, item, spider):
err_msg = ''
for field, data in item.items():
if not data:
err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
if err_msg:
raise DropItem(err_msg)
self.collection.insert(dict(item))
log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
level=log.DEBUG, spider=spider)
return item
希望本文所述对大家的python程序设计有所帮助。
标签:scrapy,采集,mongodb
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
Python Django view 两种return的实现方式
2022-05-03 16:07:04
Python中单线程、多线程和多进程的效率对比实验实例
2022-12-01 09:25:55
ORACLE数据库查看执行计划的方法
2012-06-06 20:15:52
Elasticsearch之倒排索引及索引操作
2023-10-28 00:38:38
浅述七大主流数据库
2011-08-05 18:21:27
关于Javascript的内存泄漏问题
2008-04-15 07:46:00
javascript this 关键字小提示
2009-02-03 13:22:00
Go语言字符串基础示例详解
2023-07-17 03:14:56
![](https://img.aspxhome.com/file/2023/9/90489_0s.png)
实例讲解Access数据库在线压缩的实现方法
2008-11-28 14:29:00
用户体验中的五大要素
2008-07-07 16:41:00
firefox扩展插件制作方法
2007-10-12 13:50:00
![](https://img.aspxhome.com/file/UploadPic/200710/12/20071012135210684s.jpg)
Python实战之手写一个搜索引擎
2023-07-11 21:16:49
![](https://img.aspxhome.com/file/2023/3/67323_0s.jpg)
优化SQLServer数据库服务器内存配置的策略
2009-05-13 10:25:00
PHP中array_slice函数用法实例详解
2023-06-20 20:18:04
深入了解Python iter() 方法的用法
2023-11-05 02:12:37
MYSQL中取得最后一条记录
2010-03-09 16:08:00
定格动画浅析(一)
2009-07-30 12:50:00
![](https://img.aspxhome.com/file/UploadPic/20097/30/0907_dingge-1_08-67s.jpg)
Python数学建模PuLP库线性规划进阶基于字典详解
2022-03-11 18:04:04
Python网络编程 Python套接字编程
2022-06-09 09:41:32
![](https://img.aspxhome.com/file/2023/5/72005_0s.png)
Python 数据可视化pyecharts的使用详解
2021-07-07 20:29:55
![](https://img.aspxhome.com/file/2023/1/76761_0s.jpg)