Python jieba库用法及实例解析
作者:王陸 时间:2021-04-15 22:11:44
1、jieba库基本介绍
(1)、jieba库概述
jieba是优秀的中文分词第三方库
- 中文文本需要通过分词获得单个的词语
- jieba是优秀的中文分词第三方库,需要额外安装
- jieba库提供三种分词模式,最简单只需掌握一个函数
(2)、jieba分词的原理
Jieba分词依靠中文词库
- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果
- 除了分词,用户还可以添加自定义的词组
jieba库使用说明
(1)、jieba分词的三种模式
精确模式、全模式、搜索引擎模式
- 精确模式:把文本精确的切分开,不存在冗余单词
- 全模式:把文本中所有可能的词语都扫描出来,有冗余
- 搜索引擎模式:在精确模式基础上,对长词再次切分
(2)、jieba库常用函数
2.jieba应用实例
3.利用jieba库统计三国演义中任务的出场次数
import jieba
txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数
for word in words:
if len(word) == 1: # 单个词语不计算在内
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
for i in range(15):
word, count = items[i]
print("{0:<5}{1:>5}".format(word, count))
统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。
来源:https://www.cnblogs.com/wkfvawl/p/9487165.html
标签:python,jieba,库
0
投稿
猜你喜欢
PHP中让json_encode不自动转义斜杠“/”的方法
2023-07-12 22:44:58
Windows系统下实现pycharm运行.sh文件(本地运行和打开服务器终端)
2021-03-04 23:53:45
Django表单外键选项初始化的问题及解决方法
2022-07-09 04:28:42
python实现通讯录系统
2023-06-12 20:57:50
Python正则表达re模块之findall()函数详解
2021-04-20 05:00:16
Python中几种导入模块的方式总结
2021-09-20 08:17:14
JavaScript 组件之旅(三):用 Ant 构建组件
2009-10-09 16:56:00
Python+OpenCV实现六种常用图像特效
2023-08-02 10:01:43
JavaScript 编程引入命名空间
2007-10-11 19:00:00
利用FrontPage 2003制作网络申请系统
2008-02-21 14:34:00
python安装PIL模块时Unable to find vcvarsall.bat错误的解决方法
2023-05-17 04:33:11
js实现屏蔽默认快捷键调用自定义事件示例
2023-09-05 09:28:31
使用Python监控文件内容变化代码实例
2021-06-05 22:45:19
详解python中的闭包
2023-09-25 13:37:33
在Mac OS系统上安装Python的Pillow库的教程
2021-09-29 15:03:26
如何提高ASP的效率?
2010-06-07 20:52:00
python 字典操作提取key,value的方法
2021-06-01 04:40:39
Python远程linux执行命令实现
2023-11-17 14:48:14
python获取点击的坐标画图形的方法
2023-04-23 09:59:28
tensorflow创建变量以及根据名称查找变量
2023-08-13 10:13:06