python3中编码获取网页的实例方法
作者:PYCN 时间:2023-07-17 23:31:47
学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。
1. encoding和apparent_encoding
import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)
2. 处理方案
直接用r.encoding = ‘xxx'
re.encoding='utf-8'
3. requests的text() 跟 content() 有什么区别
re.text返回的是处理过的Unicode型的数据,
而使用re.content返回的是bytes型的原始数据。
4. 爬虫拿到的HTML和浏览器中的源码不相同时
通过下载源码对比
import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)
来源:https://www.py.cn/jishu/jichu/20849.html
标签:python3,编码,获取网页
0
投稿
猜你喜欢
IE7的web标准之道 Ⅱ
2008-08-13 12:50:00
wxpython自定义下拉列表框过程图解
2023-11-14 04:01:18
在laravel中使用Symfony的Crawler组件分析HTML
2023-11-17 18:54:07
ASP解析JSON
2009-12-25 16:34:00
Python标准库sched模块使用指南
2022-09-20 12:19:06
如何在ASP中使用SQL存储过程
2008-02-26 12:09:00
新手教程:如何设置五大类MySQL参数
2010-03-03 16:40:00
Python定义函数实现累计求和操作
2021-07-07 00:54:19
教你如何升级SQL Server数据库系统
2009-01-19 14:42:00
SQL Server中使用DTS设计器进行数据转移
2009-01-08 16:15:00
未能找到存储过程’master.dbo.xp_fileexist’解决方法
2011-03-13 09:29:00
用Python自动下载网站所有文件
2021-02-09 18:57:35
解析:Perl下应当如何连接Access数据库
2008-11-28 16:40:00
最新的关键SQL Server漏洞已被微软证实
2009-03-16 14:31:00
python pdb调试方法分享
2022-02-15 22:39:22
Python时间和字符串转换操作实例分析
2023-04-15 22:58:08
50个常用sql语句 网上流行的学生选课表的例子
2012-07-11 16:02:01
PHP实现数组根据某个字段进行水平合并,横向合并案例分析
2023-10-04 04:55:53
php用header函数实现301跳转代码实例
2023-10-08 11:29:59
Array.prototype.slice
2010-05-07 12:43:00