python 采集中文乱码问题的完美解决方法

作者:jingxian 时间:2021-05-13 13:46:58 

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用


import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.


strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

标签:python,中文,乱码
0
投稿

猜你喜欢

  • SQLServer行转列实现思路记录

    2024-01-18 05:42:43
  • MySQL如何查询Binlog 生成时间

    2024-01-19 23:34:57
  • DjangoRestFramework 使用 simpleJWT 登陆认证完整记录

    2021-03-29 18:34:12
  • 根据表名和索引获取需要的列名的存储过程

    2024-01-23 04:24:14
  • pytorch-神经网络拟合曲线实例

    2022-03-17 18:17:30
  • CSS hack:区分IE6,IE7,firefox

    2007-12-23 10:25:00
  • Web跨浏览器进程通信(Web跨域)

    2024-05-02 16:20:02
  • 用python实现超强的加密软件

    2022-12-06 11:42:50
  • Javascript优化五大原则

    2007-10-30 13:49:00
  • python儿童学游戏编程知识点总结

    2022-10-23 04:32:42
  • python使用Matplotlib改变坐标轴的默认位置

    2021-08-06 00:27:42
  • python中的 zip函数详解及用法举例

    2023-04-16 15:31:36
  • 浅谈SQL Server中统计对于查询的影响分析

    2024-01-24 10:54:21
  • python中rc1什么意思

    2023-10-24 13:01:38
  • Python word文本自动化操作实现方法解析

    2022-09-09 10:11:50
  • MySQL数据库中与 ALTER TABLE 有关的问题

    2009-01-14 11:57:00
  • python2与python3中关于对NaN类型数据的判断和转换方法

    2022-07-19 00:24:03
  • Pandas —— resample()重采样和asfreq()频度转换方式

    2023-12-10 16:51:09
  • JavaScript与JQuery框架基础入门教程

    2024-04-22 22:23:08
  • 基于Python创建可定制的HTTP服务器

    2023-08-09 22:46:09
  • asp之家 网络编程 m.aspxhome.com