Python爬虫动态ip代理防止被封的方法

作者:撒撒撒windy 时间:2022-01-24 00:15:30 

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。

做好以上3个步骤,大致爬虫的运行就不成问题了。

标签:Python,动态ip,被封
0
投稿

猜你喜欢

  • MySQL索引类型一览 让MySQL高效运行起来

    2010-04-22 16:52:00
  • python numpy 中linspace函数示例详解

    2021-12-12 01:47:59
  • JS限制textarea字数

    2009-09-28 14:41:00
  • Pycharm 如何设置HTML文件自动补全代码或标签

    2021-08-12 17:47:15
  • 浅谈php自定义错误日志

    2023-11-14 10:59:40
  • Laravel框架路由管理简单示例

    2023-11-14 13:37:26
  • python中使用print输出中文的方法

    2023-06-10 16:49:40
  • 提高Python生产力的五个Jupyter notebook插件

    2021-06-01 12:52:33
  • Python读取JSON数据操作实例解析

    2021-08-11 18:27:34
  • tensorflow模型转ncnn的操作方式

    2022-10-29 15:55:19
  • opencv基于Haar人脸检测和眼睛检测

    2022-02-10 13:43:59
  • php中获取指定IP的物理地址的代码(正则表达式)

    2023-11-23 07:04:36
  • python中强制关闭线程与协程与进程方法

    2023-05-11 10:24:48
  • Python中类的初始化特殊方法

    2021-05-26 14:50:01
  • 详解GaussDB for MySQL性能优化

    2024-01-25 15:10:18
  • Pandas缺失值填充 df.fillna()的实现

    2023-11-24 00:01:41
  • 页面重构应注意的repaint和reflow

    2011-03-31 17:11:00
  • Python卸载模块的方法汇总

    2022-03-14 16:50:21
  • 利用python实现可视化大屏

    2023-08-17 17:29:17
  • Go语言struct要使用 tags的原因解析

    2023-08-31 09:25:19
  • asp之家 网络编程 m.aspxhome.com