基于scrapy的redis安装和配置方法
作者:成吉思潇 时间:2022-07-15 17:26:56
在定向爬虫的制作过程中,使用分布式爬取技术可以显著提高爬取效率。而 Redis 配合 Scrapy 是实现分布式爬取的基础。
Redis 是一个高性能的 Key-Value 数据库,它把数据保存在内存里。因此可以有非常快的数据读写速度。
scrapy-redis 的安装
pip install scrapy-redis
easy_install scrapy-redis
下载
http://redis.io/download
版本推荐
stable 3.0.2
运行redis
redis-server redis.conf
清空缓存
redis-cli flushdb
scrapy配置redis
settings.py配置redis
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = None # 一般情况可以省去
REDIS_HOST = '127.0.0.1' # 也可以根据情况改成 localhost
REDIS_PORT = 6379
在scrapy中使用scrapy-redis
spider 继承RedisSpider
class tempSpider(RedisSpider)
name = "temp"
redis_key = ''temp:start_url"
来源:https://blog.csdn.net/xx1710/article/details/51187356
标签:scrapy,redis,配置
0
投稿
猜你喜欢
Oracle与SQL Server在企业应用的比较
2010-07-20 13:34:00
SQL Server控制语句的基本应用
2024-01-24 12:52:28
python一绘制元二次方程曲线的实例分析
2023-08-23 00:49:56
Python面向对象程序设计构造函数和析构函数用法分析
2021-12-12 07:01:48
Sublime开发python程序的示例代码
2023-11-06 09:45:46
Python反爬虫伪装浏览器进行爬虫
2023-07-05 22:33:38
Nodejs封装类似express框架的路由实例详解
2024-05-11 10:17:43
Python操作PDF文件之实现A3页面转A4
2021-03-06 19:45:06
日文片假名导致 Access 搜索“内存溢出”
2009-07-07 22:23:00
Python中的Pandas 时间函数 time 、datetime 模块和时间处理基础讲解
2022-08-01 05:18:41
如何用表单的方式推送请求的信息?
2010-06-16 09:47:00
python小程序之4名牌手洗牌发牌问题解析
2023-08-28 04:06:20
深入了解Python中的变量
2022-03-15 06:31:24
JavaScript修改作用域外变量的方法
2024-04-10 16:12:01
Python实现迷宫自动寻路实例
2021-12-22 10:00:44
linux环境下的python安装过程图解(含setuptools)
2021-03-31 13:03:56
以SortedList为例详解Python的defaultdict对象使用自定义类型的方法
2022-04-07 02:32:28
SQL Server中字符串函数的用法详解
2024-01-14 05:42:56
使用Python3编写抓取网页和只抓网页图片的脚本
2023-08-15 08:00:17
python重要函数eval多种用法解析
2023-02-08 20:16:46