Python3爬虫学习之应对网站反爬虫机制的方法分析
作者:Sailfish23 时间:2022-04-17 08:44:16
本文实例讲述了Python3爬虫学习之应对网站反爬虫机制的方法。分享给大家供大家参考,具体如下:
如何应对网站的反爬虫机制
在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策略。
例如打开搜狐首页,先来看一下Chrome的头信息(F12打开开发者模式)如下:
如图,访问头信息中显示了浏览器以及系统的信息(headers所含信息众多,具体可自行查询)
Python中urllib中的request模块提供了模拟浏览器访问的功能,代码如下:
from urllib import request
url = 'http://www.baidu.com'
# page = request.Request(url)
# page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
print(page_info)
可以通过add_header(key, value)
或者直接以参数的形式和URL一起请求访问,
urllib.request.Request()
urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
其中headers是一个字典,通过这种方式可以将爬虫模拟成浏览器对网站进行访问。
https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/weixin_37636702/article/details/78756967
标签:Python3,爬虫
0
投稿
猜你喜欢
MySQL优化之数据表的处理
2008-12-22 14:45:00
深入浅析JavaScript中的arguments对象(强力推荐)
2024-04-25 13:12:46
python 全角半角互换的实现示例
2021-02-03 20:30:52
Python实现队列的方法
2023-08-29 06:45:30
使用Python 统计高频字数的方法
2023-07-19 09:20:18
Mysql语法、特殊符号及正则表达式的使用详解
2024-01-12 21:56:50
macOS Sierra安装Apache2.4+PHP7.0+MySQL5.7.16
2023-11-15 13:05:39
jenkins自动构建发布vue项目的方法步骤
2024-04-30 10:47:14
XXencode 编码,XX编码介绍、XXencode编码转换原理与算法
2023-11-06 19:14:48
vue+element-ui+sortable.js实现表格拖拽功能
2024-04-09 11:00:11
Go每日一库之quicktemplate的使用
2023-06-28 01:03:15
MySQL数据库的触发器的使用
2024-01-19 07:17:37
WIn10+Anaconda环境下安装PyTorch(避坑指南)
2023-06-20 03:24:04
Python实现的视频播放器功能完整示例
2023-05-04 06:33:56
只需要这一行代码就能让python计算速度提高十倍
2023-01-30 15:16:02
Django中使用Celery的方法示例
2021-08-05 06:12:08
浅谈Python的字典键名可以是哪些类型
2021-06-13 11:39:47
Python中常用的内置函数
2023-01-06 08:15:30
PHP中判断变量为空的几种方法分享
2024-06-05 09:35:25
Python生产者与消费者模型中的优势介绍
2023-06-18 01:21:17