Python urllib库如何添加headers过程解析

作者:lincappu 时间:2023-01-09 00:07:35 

对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。

方法一:借助build_opener和addheaders完成


import urllib.request
url="http://www.meizitu.com"
#注意:在urllib 中headers是元组
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")

opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url)
print(data.read())

注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!

方法二、创建一个Request实例对象


# 案例1
import urllib.request
url="http://www.meizitu.com"
#注意:在urllib 中这种的headers 是需要是字典的
headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}
req=urllib.request.Request(url=url,headers=headers)
file=urllib.request.urlopen(req)

#出现有些解码错误的话,加上“ignore”就可以啦
print(file.read().decode("utf-8",'ignore'))

注意:此处的headers要写为一个字典类型才可以。

创建一个Reques对象,把需要的headers,url,proxy 都放进去,或者在post 请求中还可以把编码过后的data 值放进去,再用urlopen 打开,就比较方便了。

另外,这种方法还可以用add_headers()来添加headers,代码如下:


import urllib.request
try:
 url="http://www.meizitu.com"
 req=urllib.request.Request(url=url)

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")
 file=urllib.request.urlopen(req,timeout=10.1)

print(file.read().decode("utf-8",'ignore'))
except Exception as e:
 print("时间超时",str(e))

总结:通过以上两种方法,可以完成请求头的相关参数设置,但是得注意headers是用字典类型来传入还是元组类型。

来源:https://www.cnblogs.com/lincappu/p/12883519.html

标签:Python,urllib,库,添加,headers
0
投稿

猜你喜欢

  • 在pycharm中使用git版本管理以及同步github的方法

    2021-12-08 01:59:58
  • Python2包含中文报错的解决方法

    2021-09-12 20:51:24
  • python __init__与 __new__的区别

    2022-05-04 01:27:57
  • Python用类实现扑克牌发牌的示例代码

    2021-01-07 10:07:07
  • python肯德尔系数相关性数据分析示例

    2023-02-20 21:42:35
  • 如何更优雅地写python代码

    2022-03-03 04:53:24
  • Win下PyInstaller 安装和使用教程

    2022-08-14 21:29:53
  • python安装教程 Pycharm安装详细教程

    2022-08-08 02:25:55
  • 详解MySQL数据库中字符串的正确使用

    2010-06-20 15:01:00
  • 如何安装SQL Server 2012群集

    2024-01-14 23:35:09
  • ES6入门教程之let、const的使用方法

    2024-05-22 10:36:59
  • python使用openCV遍历文件夹里所有视频文件并保存成图片

    2023-05-30 18:14:22
  • python实现在字符串中查找子字符串的方法

    2022-07-03 15:37:50
  • 详解MySQL数据类型int(M)中M的含义

    2024-01-14 03:07:05
  • 理解绝对定位和相对定位布局

    2009-03-19 13:53:00
  • 从git仓库中删除.idea文件夹的小妙招

    2022-10-29 04:12:00
  • Vue 项目性能优化方案分享

    2024-05-10 14:20:36
  • JavaScript 自定义事件之我见

    2024-04-10 10:50:01
  • Effective Python bytes 与 str 的区别

    2021-07-11 16:52:13
  • Python进阶之使用selenium爬取淘宝商品信息功能示例

    2022-04-26 04:55:15
  • asp之家 网络编程 m.aspxhome.com