python 采集中文乱码问题的完美解决方法
作者:jingxian 时间:2021-05-13 13:46:58
近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录
1. 在正常情况下..可以用
import chardet
thischarset = chardet.detect(strs)["encoding"]
来获取该文件或页面的编码方式
或直接抓取页面的charset = xxxx 来获取
2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")
decode的第二个参数表示遇到非法字符时所采取的方式
该参数默认为抛出异常.
标签:python,中文,乱码


猜你喜欢
SQLServer行转列实现思路记录
2024-01-18 05:42:43

MySQL如何查询Binlog 生成时间
2024-01-19 23:34:57

DjangoRestFramework 使用 simpleJWT 登陆认证完整记录
2021-03-29 18:34:12

根据表名和索引获取需要的列名的存储过程
2024-01-23 04:24:14
pytorch-神经网络拟合曲线实例
2022-03-17 18:17:30

CSS hack:区分IE6,IE7,firefox
2007-12-23 10:25:00
Web跨浏览器进程通信(Web跨域)
2024-05-02 16:20:02

用python实现超强的加密软件
2022-12-06 11:42:50

Javascript优化五大原则
2007-10-30 13:49:00
python儿童学游戏编程知识点总结
2022-10-23 04:32:42
python使用Matplotlib改变坐标轴的默认位置
2021-08-06 00:27:42

python中的 zip函数详解及用法举例
2023-04-16 15:31:36
浅谈SQL Server中统计对于查询的影响分析
2024-01-24 10:54:21

python中rc1什么意思
2023-10-24 13:01:38
Python word文本自动化操作实现方法解析
2022-09-09 10:11:50

MySQL数据库中与 ALTER TABLE 有关的问题
2009-01-14 11:57:00
python2与python3中关于对NaN类型数据的判断和转换方法
2022-07-19 00:24:03

Pandas —— resample()重采样和asfreq()频度转换方式
2023-12-10 16:51:09
JavaScript与JQuery框架基础入门教程
2024-04-22 22:23:08
基于Python创建可定制的HTTP服务器
2023-08-09 22:46:09
