python爬虫设置每个代理ip的简单方法
作者:饮醉不止马匹 时间:2022-11-01 19:18:52
python爬虫设置每个代理ip的方法:
1.添加一段代码,设置代理,每隔一段时间换一个代理。
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个 IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,网站君都不知道是谁在捣鬼了,这酸爽! 下面一段代码说明了代理的设置用法。
import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
opener = urllib2.build_opener(proxy_handler)
else:
opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)
2.Timeout 设置,可以解决一些网站出现响应过慢而造成的影响问题。
之前已经说过urlopen 方法了,第三个参数就是 timeout 的设置,可以设置等待多久超时,为了解决一些网站实在响应过慢而造成的影响。 例如下面的代码,如果第二个参数 data 为空那么要特别指定是 timeout 是多少,写明形参,如果 data 已经传入,则不必声明。
import urllib2
response = urllib2.urlopen('http://www.baidu.com', timeout=10)
import urllib2
response = urllib2.urlopen('http://www.baidu.com',data, 10)
来源:https://www.py.cn/jishu/spider/32881.html
标签:python爬虫,设置代理
0
投稿
猜你喜欢
python 应用之Pycharm 新建模板默认添加编码格式-作者-时间等信息【推荐】
2023-07-09 01:15:42
CentOS 7.2下MySQL的安装与相关配置
2024-01-16 23:21:29
K-means聚类算法介绍与利用python实现的代码示例
2023-07-29 11:08:55
django-rest-framework 自定义swagger过程详解
2023-01-01 22:05:34
Python功能键的读取方法
2023-09-26 23:12:24
base href 使用方法详解
2008-05-18 13:27:00
JavaScript内置对象math,global功能与用法实例分析
2024-04-22 22:36:47
Python tkinter实现的图片移动碰撞动画效果【附源码下载】
2022-03-19 03:05:26
oracle 优化的一点体会
2009-10-02 17:59:00
详解thinkphp+redis+队列的实现代码
2024-05-11 10:08:34
Python使用grequests并发发送请求的示例
2022-11-08 15:38:01
Python使用微信itchat接口实现查看自己微信的信息功能详解
2021-07-29 16:07:20
Ubuntu18.04安装mysql5.7.23的教程
2024-01-19 21:20:03
Java基础之JDBC的数据库连接与基本操作
2024-01-13 12:35:04
利用Python如何实时检测自身内存占用
2023-01-11 03:12:02
十行Python代码制作一个视频倒放神器
2022-02-03 13:40:15
怎样用JS模拟实现枚举
2024-04-22 12:48:38
IIS上设置301跳转,实现ASP带参数跳转
2011-04-08 12:52:00
asp如何在聊天室实现趣味答题并计分功能?
2010-06-18 20:00:00
学习ASP的理由 分析小结
2011-02-26 10:54:00