Python jieba库用法及实例解析

作者:王陸 时间:2021-04-15 22:11:44 

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语

  • - jieba是优秀的中文分词第三方库,需要额外安装

  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词

  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余

  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数


import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
 if len(word) == 1:  # 单个词语不计算在内
   continue
 else:
   counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1

items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
 word, count = items[i]
 print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

来源:https://www.cnblogs.com/wkfvawl/p/9487165.html

标签:python,jieba,库
0
投稿

猜你喜欢

  • PHP中让json_encode不自动转义斜杠“/”的方法

    2023-07-12 22:44:58
  • Windows系统下实现pycharm运行.sh文件(本地运行和打开服务器终端)

    2021-03-04 23:53:45
  • Django表单外键选项初始化的问题及解决方法

    2022-07-09 04:28:42
  • python实现通讯录系统

    2023-06-12 20:57:50
  • Python正则表达re模块之findall()函数详解

    2021-04-20 05:00:16
  • Python中几种导入模块的方式总结

    2021-09-20 08:17:14
  • JavaScript 组件之旅(三):用 Ant 构建组件

    2009-10-09 16:56:00
  • Python+OpenCV实现六种常用图像特效

    2023-08-02 10:01:43
  • JavaScript 编程引入命名空间

    2007-10-11 19:00:00
  • 利用FrontPage 2003制作网络申请系统

    2008-02-21 14:34:00
  • python安装PIL模块时Unable to find vcvarsall.bat错误的解决方法

    2023-05-17 04:33:11
  • js实现屏蔽默认快捷键调用自定义事件示例

    2023-09-05 09:28:31
  • 使用Python监控文件内容变化代码实例

    2021-06-05 22:45:19
  • 详解python中的闭包

    2023-09-25 13:37:33
  • 在Mac OS系统上安装Python的Pillow库的教程

    2021-09-29 15:03:26
  • 如何提高ASP的效率?

    2010-06-07 20:52:00
  • python 字典操作提取key,value的方法

    2021-06-01 04:40:39
  • Python远程linux执行命令实现

    2023-11-17 14:48:14
  • python获取点击的坐标画图形的方法

    2023-04-23 09:59:28
  • tensorflow创建变量以及根据名称查找变量

    2023-08-13 10:13:06
  • asp之家 网络编程 m.aspxhome.com