Python jieba库分词模式实例用法

作者:十一 时间:2023-12-09 23:40:42 

在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式、全模式、搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。

全模式:


import jieba
seg_list = jieba.cut("南京市长江大桥欢迎你。", cut_all=True)
print(type(seg_list),seg_list)

精确模式:


seg_list1 = jieba.lcut("南京市长江大桥欢迎你。", cut_all=False)
print(type(seg_list1),seg_list1)

搜索模式:


seg_list2 = jieba.cut_for_search("南京市长江大桥欢迎你。")
print(type(seg_list2),seg_list2)
print("全模式:" + "/ ".join(seg_list))
print("精确模式:" + "/ ".join(seg_list1))
print("搜索引擎模式:" + "/ ".join(seg_list2))

输出结果:

全模式:南京/ 南京市/ 京市/ 市长/ 长江/ 长江大桥/ 大桥/ 欢迎/ 你/ 。

精确模式:南京市/ 长江大桥/ 欢迎/ 你/ 。

搜索引擎模式:南京/ 京市/ 南京市/ 长江/ 大桥/ 长江大桥/ 欢迎/ 你/ 。

内容扩展:

获取词性

我们还可以通过jiaba这个库把词性进行区分,比如动词,名词等


import jieba.posseg as psg

seg_list = psg.cut("我要进行关键词提取")
print([(s.word, s.flag) for s in seg_list])
# [('我', 'r'), ('要', 'v'), ('进行', 'v'), ('关键词', 'n'), ('提取', 'v')]

我们还可以提取动词或者名词,我们来提取下里面的动词


import jieba.posseg as psg

seg_list = psg.cut("我要进行关键词提取")
print([(s.word, s.flag) for s in seg_list if s.flag.startswith('v')])

来源:https://www.py.cn/jishu/jichu/22888.html

标签:Python,jieba,分词模式
0
投稿

猜你喜欢

  • Mysql中的排序规则utf8_unicode_ci、utf8_general_ci的区别总结

    2024-01-13 14:39:02
  • 官方是这样定义 DOCTYPE HTML PUBLIC 的

    2007-05-31 09:43:00
  • Python 序列化和反序列化库 MarshMallow 的用法实例代码

    2023-02-20 23:28:04
  • Python性能分析工具py-spy原理用法解析

    2021-08-30 14:57:23
  • php+mysql实现简单登录注册修改密码网页

    2024-04-30 08:49:54
  • 关于JavaScript中的this指向问题总结篇

    2024-04-29 13:21:25
  • Windows Server 2008之数据安全保护

    2008-12-04 12:49:00
  • python编程通过蒙特卡洛法计算定积分详解

    2022-05-31 10:45:01
  • SQLSERVER分布式事务使用实例

    2024-01-28 03:57:28
  • Python爬虫框架Scrapy安装使用步骤

    2022-02-23 13:49:09
  • Oracle开发之报表函数

    2023-07-23 16:29:00
  • DjangoRestFramework 使用 simpleJWT 登陆认证完整记录

    2021-03-29 18:34:12
  • 用色彩打造专业的视觉效果

    2010-09-25 19:04:00
  • DreamweaverMX 2004打造细线表格

    2008-10-01 09:39:00
  • 文章关键字替换带链接需要注意的两个问题

    2010-02-25 12:18:00
  • 实例学习call、apply、callee用法

    2009-03-27 17:56:00
  • python学习必备知识汇总

    2022-01-05 10:26:23
  • 解决SQLServer最大流水号的两个好方法

    2009-01-13 14:15:00
  • 破解 屏蔽 防框架代码 top.location != self.location

    2008-11-27 12:59:00
  • python之Socket网络编程详解

    2021-05-29 14:43:22
  • asp之家 网络编程 m.aspxhome.com