Python jieba分词添加自定义词和去除不需要长尾词的操作方法

作者:虚坏叔叔 时间:2023-05-05 11:20:35 

Python jieba分词如何添加自定义词和去除不需要长尾词

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

通过如下代码,读取一个txt的高频词汇:

# 找到高频词汇
           tmp_content = self.getContent(tmp_path)
           keyword_list = tmp_content.split('\n')
           word_count = dict()
           for keyword in keyword_list:
               for word,flag in jp.cut(keyword):
                   if word in word_count:
                       word_count[word] = word_count[word] +1
                   else:
                       word_count[word] =1
           for word, count in word_count.items():
               print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

一、添加自定义词

通过添加自定义词

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

就可以看到,统计出来的词是这个自定义词

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

总结

  • 本文主要介绍jieba的基础用法。

来源:https://blog.csdn.net/biggbang/article/details/129260648

标签:Python,jieba,分词
0
投稿

猜你喜欢

  • python正则表达式匹配不包含某几个字符的字符串方法

    2023-06-11 16:52:45
  • python Tornado框架的使用示例

    2021-01-03 11:12:11
  • 使用Python快乐学数学Github万星神器Manim简介

    2022-07-03 04:28:00
  • jQuery实现简单复制json对象和json对象集合操作示例

    2024-04-16 09:29:17
  • matplotlib图形整合之多个子图绘制的实例代码

    2023-10-23 23:17:47
  • 存储过程配合UpdateDaset方法批量插入Dataset数据实现代码

    2024-01-25 12:29:59
  • 静态页面实现文章点击数统计的js方法

    2008-01-23 19:17:00
  • asp模板解析类模块(支持if,function,loop及解析缓存)

    2008-08-11 13:06:00
  • 用Javascript正则表达式验证Email地址

    2009-12-09 15:56:00
  • python怎么判断素数

    2021-09-30 11:10:33
  • Python浮点型(float)运算结果不正确的解决方案

    2023-10-04 16:57:44
  • python中执行shell的两种方法总结

    2023-03-12 15:20:39
  • Oracle排名函数(Rank)实例详解

    2024-01-21 16:44:34
  • js实现通过开始结束控制的计时器

    2024-04-18 09:39:03
  • PyQt5 实现字体大小自适应分辨率的方法

    2022-08-25 03:07:44
  • Vue+Express实现登录注销功能的实例代码

    2024-05-13 09:11:38
  • Python实现从订阅源下载图片的方法

    2021-08-14 19:19:37
  • Python爬虫包 BeautifulSoup 递归抓取实例详解

    2023-03-06 11:46:26
  • MySQL配置文件my.cnf中文版

    2011-09-30 11:06:15
  • Python利用shutil模块实现文件夹的复制删除与裁剪

    2023-12-19 04:16:23
  • asp之家 网络编程 m.aspxhome.com