python 采集中文乱码问题的完美解决方法
作者:jingxian 时间:2021-05-13 13:46:58
近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录
1. 在正常情况下..可以用
import chardet
thischarset = chardet.detect(strs)["encoding"]
来获取该文件或页面的编码方式
或直接抓取页面的charset = xxxx 来获取
2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")
decode的第二个参数表示遇到非法字符时所采取的方式
该参数默认为抛出异常.
标签:python,中文,乱码
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
python 使用值来排序一个字典的方法
2022-02-05 00:25:05
Python时间戳使用和相互转换详解
2023-01-22 08:14:28
Python中类的创建和实例化操作示例
2023-12-08 14:12:51
用Mimer Validator检查SQL查询
2009-04-24 11:59:00
ASP编程常用的分页代码
2007-09-11 13:57:00
使用FORFILES命令来删除SQLServer备份的批处理
2012-05-08 06:47:06
Pandas数据离散化原理及实例解析
2022-06-26 21:45:14
![](https://img.aspxhome.com/file/2023/8/97748_0s.png)
巧用一条SQL 实现其它进制到十进制转换
2009-01-19 13:16:00
python实现远程控制电脑
2022-12-07 21:00:16
Golang最大递减数算法问题分析
2023-07-16 13:49:21
10分钟教你用python动画演示深度优先算法搜寻逃出迷宫的路径
2023-10-16 08:05:00
![](https://img.aspxhome.com/file/2023/2/110022_0s.gif)
Django框架基础模板标签与filter使用方法详解
2022-10-25 18:14:43
![](https://img.aspxhome.com/file/2023/5/66295_0s.png)
python实现修改固定模式的字符串内容操作示例
2023-05-13 21:44:04
基于PHP+Ajax实现表单验证的详解
2023-11-14 12:52:43
python使用SMTP发送qq或sina邮件
2021-03-08 01:06:55
![](https://img.aspxhome.com/file/2023/4/78454_0s.png)
Python的Flask站点中集成xhEditor文本编辑器的教程
2023-04-05 00:41:06
![](https://img.aspxhome.com/file/2023/6/72236_0s.jpg)
Python中关键字global和nonlocal的区别详解
2023-08-02 16:42:33
![](https://img.aspxhome.com/file/2023/7/60957_0s.png)
基于Python执行dos命令并获取输出的结果
2021-01-23 14:26:53
流动的线条 —— 中国汉字书法之美
2009-10-30 18:15:00
![](https://img.aspxhome.com/file/UploadPic/200910/30/1-79s.jpg)
JavaScript组件打包模式
2010-04-08 16:26:00