Python jieba结巴分词原理及用法解析
作者:南风丶轻语 时间:2023-08-29 17:43:36
1、简要说明
结巴分词支持三种分词模式,支持繁体字,支持自定义词典
2、三种分词模式
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下
搜索引擎模式:在精简模式下,对长词再度切分
# -*- encoding=utf-8 -*-
import jieba
if __name__ == '__main__':
str1 = '我去北京天安门广场跳舞'
a = jieba.lcut(str1, cut_all=True) # 全模式
print('全模式:{}'.format(a))
b = jieba.lcut(str1, cut_all=False) # 精简模式
print('精简模式:{}'.format(b))
c = jieba.lcut_for_search(str1) # 搜索引擎模式
print('搜索引擎模式:{}'.format(c))
运行
3、某个词语不能被分开
# -*- encoding=utf-8 -*-
import jieba
if __name__ == '__main__':
str1 = '桃花侠大战菊花怪'
b = jieba.lcut(str1, cut_all=False) # 精简模式
print('精简模式:{}'.format(b))
# 如果不把桃花侠分开
jieba.add_word('桃花侠')
d = jieba.lcut(str1) # 默认是精简模式
print(d)
运行
4、 某个单词必须被分开
# -*- encoding=utf-8 -*-
import jieba
if __name__ == '__main__':
# HMM参数,默认为True
'''HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,
用来描述一个系统隐性状态的转移和隐性状态的表现概率。
在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,
其大致原理是:
采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。
通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
'''
str1 = '桃花侠大战菊花怪'
b = jieba.lcut(str1, cut_all=False, HMM=False) # 精简模式,且不使用HMM模型
print('精简模式:{}'.format(b))
# 分开大战为大和战
jieba.suggest_freq(('大', '战'), True)
e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
print('分开:{}'.format(e))
运行
来源:https://www.cnblogs.com/rainbow-tan/p/13365253.html
标签:Python,jieba,结巴,分词
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
使用pandas批量处理矢量化字符串的实例讲解
2023-09-22 03:00:01
python实现excel公式格式化的示例代码
2021-08-09 17:27:52
![](https://img.aspxhome.com/file/2023/6/124776_0s.png)
常见数据库系统比较 Oracle数据库
2010-07-28 12:44:00
Oracle 启动例程 STARTUP参数说明
2009-07-07 10:26:00
Python异步操作MySQL示例【使用aiomysql】
2024-01-16 20:22:07
python中的插入排序的简单用法
2023-09-30 07:57:51
![](https://img.aspxhome.com/file/2023/3/63193_0s.png)
php中设置index.php文件为只读的方法
2023-11-17 20:13:54
如何用python绘制雷达图
2023-04-19 12:44:09
![](https://img.aspxhome.com/file/2023/4/78544_0s.jpg)
python中使用sys模板和logging模块获取行号和函数名的方法
2022-07-19 14:58:22
垂直无缝滚动图片(兼容性好)实例教程源码下载
2010-04-06 12:16:00
![](https://img.aspxhome.com/file/UploadPic/20104/6/scrollnews-65s.jpg)
关于Python函数对象的名称空间和作用域
2023-08-15 02:00:42
python实现Pyecharts实现动态地图(Map、Geo)
2021-01-21 11:33:58
![](https://img.aspxhome.com/file/2023/7/95897_0s.jpg)
使table也能overflow:hidden
2008-08-18 21:04:00
Python+OpenCV实现将图像转换为二进制格式
2021-06-25 08:10:33
python 从远程服务器下载日志文件的程序
2021-03-06 01:39:15
vue实现菜单切换功能
2024-05-03 15:12:08
Pycharm配置opencv与numpy的实现
2021-09-19 08:20:55
![](https://img.aspxhome.com/file/2023/4/114654_0s.jpg)
Python实现邮件自动下载的示例详解
2023-06-15 04:44:35
![](https://img.aspxhome.com/file/2023/2/123792_0s.png)
Python对接六大主流数据库(只需三步)
2022-04-25 21:51:55
![](https://img.aspxhome.com/file/2023/4/64674_0s.jpg)
python字典setdefault方法和get方法使用实例
2023-11-23 21:13:15