详解selenium + chromedriver 被反爬的解决方法

作者：黑蚂蚁时间：2022-03-20 18:40:46　

问题背景：这个问题是在爬取某夕夕商城遇到的问题，原本的方案是用selenium + chromedriver + mitmproxy开心的刷，但是几天之后，发现刷不出来了，会直接跳转到登陆界面（很明显，是遭遇反爬了）

讲实话，这还是第一次用硒被反爬的，于是进行大规模的测试对比。

同台机器，用铬浏览器正常访问是不用跳转到登陆界面的，所以不是IP的问题。再用提琴手抓包对比了一下两个请求头，请求头都是一样的，所以忽略标头的反爬。

最后通过分析，可能是硒被检测出来了。于是就去查资料。大概的查到是和webdriver的有关系的。因为这个在服务端是可以检测到的。于是通过fiddler抓包，全局搜索了一下webdriver，发现在js中果然是有判断的。导致selenium爬取的时候，被转到登陆界面。

解决方法：mitmproxy

因为mitmproxy可以拦截请求，所以在响应中，将包含的webdriver的JS中的关键字替换成其他的字符就可以了。

if "/_next/static/js/common_pdd" in flow.request.url:
flow.response.text = flow.response.text.replace("webdriver", "userAgent")

我是这样替换的。这样js解析的参数就变了，问题花刃而解。可以正常爬取数据了。

另外国外网上也有很多方法，比如修改webdriver里的一些特定参数名称，我尝试了一下，没有生效。

来源：https://blog.csdn.net/weixin_39847926/article/details/82262048

标签：selenium,chromedriver,反爬

投稿

详解selenium + chromedriver 被反爬的解决方法

猜你喜欢

Python iter()函数用法实例分析

IE bug: 消失的绝对定位元素

SQL SERVER EXPRESS 常见问题及解决办法

实际应用：MySQL5存储过程编写

【推荐】汉字转为拼音的asp函数

Python将list中的string批量转化成int/float的方法

10个ASP网页制作技巧

提高javascript的速度系列（序）

关于DOM元素定位属性的深入学习

Ajax+PHP边学边练之五图片处理

JavaScript缓动动画函数的封装方法

Python抓取框架Scrapy爬虫入门：页面提取

PHP的mysqli_select_db()函数讲解

Python SQLAlchemy库的使用方法

淘宝搜索框研究报告

asp不用DSN也能连接EXCEL吗？

界面内容优化的层次

asp FSO组件操作详解

SQL Server与Oracle数据库在查询优化上的差异

python实现拓扑排序的基本教程

详解selenium + chromedriver 被反爬的解决方法

猜你喜欢

Python iter()函数用法实例分析

IE bug: 消失的绝对定位元素

SQL SERVER EXPRESS 常见问题及解决办法

实际应用：MySQL5存储过程编写

【推荐】汉字转为拼音的asp函数

Python将list中的string批量转化成int/float的方法

10个ASP网页制作技巧

提高javascript的速度系列（序）

关于DOM元素定位属性的深入学习

Ajax+PHP边学边练 之五 图片处理

JavaScript缓动动画函数的封装方法

Python抓取框架Scrapy爬虫入门：页面提取

PHP的mysqli_select_db()函数讲解

Python SQLAlchemy库的使用方法

淘宝搜索框研究报告

asp不用DSN也能连接EXCEL吗？

界面内容优化的层次

asp FSO组件操作详解

SQL Server与Oracle数据库在查询优化上的差异

python实现拓扑排序的基本教程

Ajax+PHP边学边练之五图片处理