python 采集中文乱码问题的完美解决方法

作者:jingxian 时间:2021-05-13 13:46:58 

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用


import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.


strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

标签:python,中文,乱码
0
投稿

猜你喜欢

  • python 使用值来排序一个字典的方法

    2022-02-05 00:25:05
  • Python时间戳使用和相互转换详解

    2023-01-22 08:14:28
  • Python中类的创建和实例化操作示例

    2023-12-08 14:12:51
  • 用Mimer Validator检查SQL查询

    2009-04-24 11:59:00
  • ASP编程常用的分页代码

    2007-09-11 13:57:00
  • 使用FORFILES命令来删除SQLServer备份的批处理

    2012-05-08 06:47:06
  • Pandas数据离散化原理及实例解析

    2022-06-26 21:45:14
  • 巧用一条SQL 实现其它进制到十进制转换

    2009-01-19 13:16:00
  • python实现远程控制电脑

    2022-12-07 21:00:16
  • Golang最大递减数算法问题分析

    2023-07-16 13:49:21
  • 10分钟教你用python动画演示深度优先算法搜寻逃出迷宫的路径

    2023-10-16 08:05:00
  • Django框架基础模板标签与filter使用方法详解

    2022-10-25 18:14:43
  • python实现修改固定模式的字符串内容操作示例

    2023-05-13 21:44:04
  • 基于PHP+Ajax实现表单验证的详解

    2023-11-14 12:52:43
  • python使用SMTP发送qq或sina邮件

    2021-03-08 01:06:55
  • Python的Flask站点中集成xhEditor文本编辑器的教程

    2023-04-05 00:41:06
  • Python中关键字global和nonlocal的区别详解

    2023-08-02 16:42:33
  • 基于Python执行dos命令并获取输出的结果

    2021-01-23 14:26:53
  • 流动的线条 —— 中国汉字书法之美

    2009-10-30 18:15:00
  • JavaScript组件打包模式

    2010-04-08 16:26:00
  • asp之家 网络编程 m.aspxhome.com