超简单的scrapy实现ip * 与更换ip的方法实现
作者:我不是秃头哆唻咪 时间:2022-12-21 19:58:05
简单实现ip代理,为了不卖广告,
请自行准备一个ip代理的平台
例如我用的这个平台,每次提取10个ip
从上面可以看到数据格式是文本,换行是\r\n,访问链接之后大概就是长这样的,scrapy里面的ip需要加上前缀http://
例如:http://117.95.41.21:34854
OK,那现在已经准备好了ip了,先给你们屡一下思路。
ip池和计数器放在setting文件
第一次请求的时候要填满ip池,所以在爬虫文件的start_requests函数下手
更换ip的地方是middlewares的下载器中间件类的process_request函数,因为每个请求发起前都会经过这个函数
首先是setting文件,其实就是加两句代码
count = {'count': 0}
ipPool = []
还有就是开启下载器中间件,注意是下面那个download的类,中间件的process_request函数的时候才能生效
下载器中间件的process_request函数,进行ip代理和固定次数更还ip代理池
# 记得导包
from 你的项目.settings import ipPool, count
import random
import requests
def process_request(self, request, spider):
# 随机选中一个ip
ip = random.choice(ipPool)
print('当前ip', ip, '-----', count['count'])
# 更换request的ip----------这句是重点
request.meta['proxy'] = ip
# 如果循环大于某个值,就清理ip池,更换ip的内容
if count['count'] > 50:
print('-------------切换ip------------------')
count['count'] = 0
ipPool.clear()
ips = requests.get('你的ip获取的地址')
for ip in ips.text.split('\r\n'):
ipPool.append('http://' + ip)
# 每次访问,计数器+1
count['count'] += 1
return None
最后就是爬虫文件的start_requests函数,就是第一次发请求前要先填满ip池的ip
# 记得导包
from 你的项目.settings import ipPool
import random
import requests
def start_requests(self):
# 第一次请求发起前先填充一下ip池
ips = requests.get('你的ip获取的地址')
for ip in ips.text.split('\r\n'):
ipPool.append('http://' + ip)
简单的ip代理以及固定次数就更换ip池就完成了
来源:https://blog.csdn.net/weixin_44864260/article/details/115024231
标签:scrapy,ip , ,更换ip
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
基于Python编写一个中秋节嫦娥投食小游戏
2022-12-27 10:46:34
![](https://img.aspxhome.com/file/2023/7/134457_0s.gif)
Python查找第n个子串的技巧分享
2023-02-20 22:02:55
关于javascript DOM事件模型的两件事
2024-05-13 09:37:11
![](https://img.aspxhome.com/file/2023/8/125448_0s.png)
Python判断字符串是否为字母或者数字(浮点数)的多种方法
2023-04-12 07:55:47
Python Web框架之Django框架Model基础详解
2023-11-04 22:07:00
JS实现动画中的布局转换
2023-10-14 15:58:04
![](https://img.aspxhome.com/file/2023/8/56268_0s.gif)
MySQL系列之九 mysql查询缓存及索引
2024-01-22 12:46:10
![](https://img.aspxhome.com/file/2023/6/124536_0s.png)
Python读取图片EXIF信息类库介绍和使用实例
2023-05-27 00:49:47
python通过百度地图API获取某地址的经纬度详解
2021-11-06 12:14:45
![](https://img.aspxhome.com/file/2023/6/66456_0s.png)
你是真正的用户体验设计者吗? Ⅵ
2008-04-19 18:23:00
![](https://img.aspxhome.com/file/UploadPic/20084/19/200841918321625s.jpg)
Python变量赋值的秘密分享
2021-10-12 11:53:04
![](https://img.aspxhome.com/file/2023/9/98889_0s.png)
Tornado Web Server框架编写简易Python服务器
2021-10-18 09:23:52
django中的HTML控件及参数传递方法
2024-01-01 17:31:33
python中itertools模块使用小结
2023-08-07 18:44:32
Go语言中序列化与反序列化示例详解
2024-02-10 11:43:57
Python实现视频分解成图片+图片合成视频
2022-12-14 05:26:12
![](https://img.aspxhome.com/file/2023/9/128719_0s.jpg)
Java字符串 正则表达式详解
2023-07-16 12:30:35
在Linux中通过Python脚本访问mdb数据库的方法
2023-12-18 16:23:14
form表单的submit方法和submit事件
2008-10-15 11:22:00
MySQL-MMM安装指南(Multi-Master Replication Manager for MySQL)
2024-01-19 04:46:03
![](https://img.aspxhome.com/file/2023/3/97433_0s.jpg)