python中requests爬去网页内容出现乱码问题解决方法介绍
作者:Winterto1990 时间:2023-09-14 01:00:11
最近在学习python爬虫,使用requests的时候遇到了不少的问题,比如说在requests中如何使用cookies进行登录验证,这可以查看这篇文章。这篇博客要解决的问题是如何避免在使用requests的时候出现乱码。
import requests
res=requests.get("https://www.baidu.com")
print res.content
我们可以通过在网页上右击查看源代码中查看编码方式:content="text/html;charset=utf-8"->
我们便可以知道网页的编码方式是utf8.由于中文的编码方式为gbk,所以我们需要将编码方式改变为gbk。
我查看了一些资料,说requests可以自动获取网页的编码方式的,并且通过res.encode输出一看是utf8,是的 没错。但是输出来的内容中文存在乱码。 有说可以直接指定获取到内容的encode属性即可,"res.encode='gbk'",但我尝试了不可以的。
python内部的编码方式为utf8,也就是说python在处理其他字符串内容的时候首先要先将内容转化为utf8的编码方式,然后在解码为你想要的编码方式输出。
例如s=”中文” 为str类型的字符串 编码方式为gb2312
需要 s.decode("gb2312")将gb2312编码方式的内容解码为Unicode编码
然后输出的时候要将s的编码方式规定为gbk->s.encode("gbk")
言归正传,我们获取到网页内容res后, 通过res.content.decode("utf8","ignore").encode("gbk","ignore")就不会有乱码了。
这里所使用的ignore属性意思是忽略其中有一场的编码,仅显示有效的编码。
来源:http://blog.csdn.net/winterto1990/article/details/51217363
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
Python实现将目录中TXT合并成一个大TXT文件的方法
Python ttkbootstrap 制作账户注册信息界面的案例代码
![](https://img.aspxhome.com/file/2023/6/124396_0s.png)
sqlserver 禁用触发器和启用触发器的语句
python的scipy实现插值的示例代码
![](https://img.aspxhome.com/file/2023/4/93804_0s.png)
终结IE6下背景图片闪烁问题
asp如何做一个检索结果带链接的检索?
Burpsuite模块之Burpsuite Intruder模块详解
![](https://img.aspxhome.com/file/2023/1/99391_0s.jpg)
C++中的string类的用法小结
Mysql获取当前日期的前几天日期的方法
SQL SERVER 2000通讯管道后复用劫持
python中subprocess实例用法及知识点详解
python数字图像处理之基本图形的绘制
![](https://img.aspxhome.com/file/2023/8/121498_0s.png)
python导出chrome书签到markdown文件的实例代码
MySql循环插入数据
springboot配置数据库密码特殊字符报错的解决
关于pycharm找不到MySQLdb模块的解决方法
![](https://img.aspxhome.com/file/2023/5/120415_0s.png)
Python微服务开发之使用FastAPI构建高效API
![](https://img.aspxhome.com/file/2023/2/134902_0s.webp)
利用Python通过获取剪切板数据实现百度划词搜索功能
![](https://img.aspxhome.com/file/2023/5/68835_0s.png)