python解决汉字编码问题:Unicode Decode Error

作者:渔人 时间:2022-12-18 21:22:53 

前言

最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误:


ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果对于ascii、unicode和utf-8还不了解的小伙伴,可以看之前的这篇文章关于字符串和编码

那么必须对下面这三个概念有所了解:

  1. ascii只能表示数字、英文字母和一些特殊符号,不能表示汉字

  2. unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度

  3. 内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间

那么python的默认编码是什么?


>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'

python的默认编码是ascii,可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码,比如:


>>> u'汉字'
u'\u6c49\u5b57'
>>> u'汉字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'汉字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么,python中的str是什么类型?


>>> import binascii
>>> '汉字'
'\xba\xba\xd7\xd6'
>>> type('汉字')
<type 'str'>
>>> print binascii.b2a_hex('汉字')
babad7d6
>>> print binascii.b2a_hex(u'汉字')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))
babad7d6

binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字'的类型是str,二进制是babad7d6,u‘汉字'是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码,所有u'汉字'.encode(‘gbk')的时候,输出结果和‘汉字'结果一样。

总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则:

  1. unicode => encode(‘合适的编码') => str

  2. str => decode(‘合适的编码') => unicode

还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦:


import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

对于第二个问题,是在文件读取的时候出的错。utf-8的文件有bom和无bom两种方式,两者的差别好像在bom文件比无bom文件多了一个头,导致以utf-8方式读文件时报错,我先前曾尝试读文件的时候先对有无bom进行判断,跳过bom文件的头,后来失败了,真尴尬~~。

还得上google求助大神,具体的操作方法就是使用codecs库来读文件(我猜这个库就是对文件的头进行检测)。


import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

对于编码问题,一定要懂得ascii、unicode和utf-8工作原理。

来源:http://yuren.space/blog/2016/07/31/python如何解决汉字编码问题/

标签:python,汉字,编码
0
投稿

猜你喜欢

  • Python+Pygame实战之24点游戏的实现

    2023-11-07 21:14:12
  • Python 虚拟机字典dict内存优化方法解析

    2022-03-04 08:20:56
  • go select编译期的优化处理逻辑使用场景分析

    2024-05-25 15:16:43
  • 通过 for 循环比较 Python 与 Ruby 的编程区别

    2022-11-12 01:19:26
  • django redis的使用方法详解

    2023-08-03 10:54:30
  • Python中文字符串截取问题

    2021-08-15 23:55:20
  • python中pandas.read_csv()函数的深入讲解

    2023-12-27 00:10:32
  • 如何解决在Azure上部署Sqlserver网络访问不了

    2024-01-14 07:47:38
  • 启动iis出现发生意外0x8ffe2740的解决方法

    2011-03-31 11:19:00
  • python使用tcp传输图片数据

    2023-08-09 06:33:48
  • linux 下python多线程递归复制文件夹及文件夹中的文件

    2021-06-28 03:27:44
  • python解压TAR文件至指定文件夹的实例

    2023-09-29 04:00:18
  • Golang设计模式中抽象工厂模式详细讲解

    2023-08-04 20:46:46
  • golang Gorm框架讲解

    2024-04-25 13:19:09
  • 浅析SQL Server授予了CREATE TABLE权限但是无法创建表

    2024-01-28 18:26:23
  • Selenium浏览器自动化如何上传文件

    2023-07-12 17:41:01
  • Python文件操作实战案例之用户登录

    2023-07-12 18:03:37
  • 使用Python编写Linux系统守护进程实例

    2022-06-09 16:50:52
  • 解决GOPATH在GOLAND中的坑

    2023-07-12 23:46:16
  • golang中package is not in GOROOT报错的真正解决办法

    2024-04-28 10:45:29
  • asp之家 网络编程 m.aspxhome.com