Python3 解决读取中文文件txt编码的问题

作者:晨小点的小疯子 时间:2022-10-22 13:14:43 

问题描述

尝试用Python写一个Wordcloud的时候,出现了编码问题。

Python3 解决读取中文文件txt编码的问题

照着网上某些博客的说法添添改改后,结果是变成了“UnicodeDecodeError: ‘utf-8' codec can't decode byte…”这个错误。

捣鼓了一天啊,TXT(此处为本人现下内心表情)。最后,干脆写个最简单的文件读取,竟然还是报错。于是就考虑是不是txt的编码问题,因为读取的txt文件是在Mac上面新建的纯文本文件,一时没找到在哪里查看编码,最后拷贝到Windows系统上,查看了txt文件的编码,竟然是ASCII,不是我最爱的utf-8,Mac你辜负了我对你的一番信任啊!ε(┬┬﹏┬┬)3

解决方法

将txt文件的编码格式改为utf-8即可

此外,在打开文件的时候,要加上第三个参数encoding=‘utf8'(没有横杠)。


with open('./test3.txt','r',encoding='utf8') as fin:
 for line in fin.readlines():
   line = line.strip('\n')

下面附上第一次成功显示的词云的源码(参考网上他人的,注释很详细)


import jieba
import jieba.analyse
from matplotlib import pyplot as plt
from scipy.misc import imread
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

# 1.读取数据
with open("./test.txt","r",encoding="utf8") as f:
 text = f.read()

# 2.基于 TextRank 算法的关键词抽取,top50
keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)

# 指定中文字体,不然中文显示框框
font = r'./HYQiHei-25J.ttf'
print(file)
# 指定背景图,随意
image = imread('cake.jpg')
wc = WordCloud(
 font_path=font,
 background_color='white',#背景色
 mask=image,#背景图
 stopwords=STOPWORDS,#设置停用词
 max_words=100,#设置最大文字数
 max_font_size=100,#设置最大字体
 width=800,
 height=1000,

)

#生成词云
image_colors = ImageColorGenerator(image)
wc.generate(file)

# 使用matplotlib,显示词云图
plt.imshow(wc) #显示词云图
plt.axis('off') #关闭坐标轴
plt.show()
# 保存图片
wc.to_file('news.png')

Python3 解决读取中文文件txt编码的问题

来源:https://blog.csdn.net/chenqiurui1994/article/details/83719991

标签:Python3,中文文件,txt,编码
0
投稿

猜你喜欢

  • Mysql误操作后利用binlog2sql快速回滚的方法详解

    2024-01-23 19:00:31
  • Golang递归获取目录下所有文件方法实例

    2024-04-25 15:19:00
  • python使用自定义user-agent抓取网页的方法

    2021-12-27 03:09:56
  • Navicat配置mysql数据库用户权限问题

    2024-01-24 13:06:21
  • 微信小程序控制台提示warning:Now you can provide attr "wx:key" for a "wx:for" to improve performance解决方法

    2024-04-18 09:42:40
  • GO语言中回调函数的使用

    2024-04-25 15:05:41
  • PHP mysql_result()函数使用方法

    2023-06-13 08:21:29
  • Vuejs 组件——props数据传递的实例代码

    2024-05-22 10:43:03
  • MySQL数据库临时文件究竟储存在哪里

    2009-09-06 12:11:00
  • python数值基础知识浅析

    2021-12-10 07:07:49
  • golang替换无法显示的特殊字符(\\u0000, \\000, ^@)

    2024-04-25 13:17:17
  • JS实现监控微信小程序的原理

    2024-04-18 10:15:04
  • Python open读写文件实现脚本

    2022-08-23 00:26:46
  • Python实现视频目标检测与轨迹跟踪流程详解

    2021-12-27 06:48:37
  • Vue登录拦截 登录后继续跳转指定页面的操作

    2024-05-28 15:48:14
  • 深入理解Python中的元类(metaclass)

    2021-02-25 22:10:00
  • pandas选择或添加列生成新的DataFrame操作示例

    2023-03-02 00:41:51
  • ASP.NET数据库编程之处理文件访问许可

    2024-01-15 19:36:27
  • Python的collections模块真的很好用

    2023-07-15 01:31:36
  • python实现12306登录并保存cookie的方法示例

    2021-08-05 18:37:55
  • asp之家 网络编程 m.aspxhome.com