基于scrapy的redis安装和配置方法

作者:成吉思潇 时间:2022-07-15 17:26:56 

在定向爬虫的制作过程中,使用分布式爬取技术可以显著提高爬取效率。而 Redis 配合 Scrapy 是实现分布式爬取的基础。

Redis 是一个高性能的 Key-Value 数据库,它把数据保存在内存里。因此可以有非常快的数据读写速度。

scrapy-redis 的安装


pip install scrapy-redis
easy_install scrapy-redis

下载

http://redis.io/download

版本推荐


stable 3.0.2

运行redis


redis-server redis.conf

清空缓存


redis-cli flushdb

scrapy配置redis

settings.py配置redis


SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = None # 一般情况可以省去
REDIS_HOST = '127.0.0.1' # 也可以根据情况改成 localhost
REDIS_PORT = 6379

在scrapy中使用scrapy-redis

spider 继承RedisSpider


class tempSpider(RedisSpider)
name = "temp"
redis_key = ''temp:start_url"

来源:https://blog.csdn.net/xx1710/article/details/51187356

标签:scrapy,redis,配置
0
投稿

猜你喜欢

  • Oracle与SQL Server在企业应用的比较

    2010-07-20 13:34:00
  • SQL Server控制语句的基本应用

    2024-01-24 12:52:28
  • python一绘制元二次方程曲线的实例分析

    2023-08-23 00:49:56
  • Python面向对象程序设计构造函数和析构函数用法分析

    2021-12-12 07:01:48
  • Sublime开发python程序的示例代码

    2023-11-06 09:45:46
  • Python反爬虫伪装浏览器进行爬虫

    2023-07-05 22:33:38
  • Nodejs封装类似express框架的路由实例详解

    2024-05-11 10:17:43
  • Python操作PDF文件之实现A3页面转A4

    2021-03-06 19:45:06
  • 日文片假名导致 Access 搜索“内存溢出”

    2009-07-07 22:23:00
  • Python中的Pandas 时间函数 time 、datetime 模块和时间处理基础讲解

    2022-08-01 05:18:41
  • 如何用表单的方式推送请求的信息?

    2010-06-16 09:47:00
  • python小程序之4名牌手洗牌发牌问题解析

    2023-08-28 04:06:20
  • 深入了解Python中的变量

    2022-03-15 06:31:24
  • JavaScript修改作用域外变量的方法

    2024-04-10 16:12:01
  • Python实现迷宫自动寻路实例

    2021-12-22 10:00:44
  • linux环境下的python安装过程图解(含setuptools)

    2021-03-31 13:03:56
  • 以SortedList为例详解Python的defaultdict对象使用自定义类型的方法

    2022-04-07 02:32:28
  • SQL Server中字符串函数的用法详解

    2024-01-14 05:42:56
  • 使用Python3编写抓取网页和只抓网页图片的脚本

    2023-08-15 08:00:17
  • python重要函数eval多种用法解析

    2023-02-08 20:16:46
  • asp之家 网络编程 m.aspxhome.com