python实现机械分词之逆向最大匹配算法代码示例

作者:lalalawxt 时间:2022-01-02 08:16:27 

逆向最大匹配方法

有正即有负,正向最大匹配算法大家可以参阅https://www.jb51.net/article/127404.htm

逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。

逆向最大匹配算法python实现:

分词文本示例:

python实现机械分词之逆向最大匹配算法代码示例

分词词典words.xlsx示例:

python实现机械分词之逆向最大匹配算法代码示例


#!/usr/bin/env python
#-*- coding:utf-8 -*-

'''''
用逆向最大匹配法分词,不去除停用词
'''
import codecs
import xlrd

#读取待分词文本,readlines()返回句子list
def readfile(raw_file_path):
 with codecs.open(raw_file_path,"r",encoding="ANSI") as f:
   raw_file=f.readlines()
   return raw_file
#读取分词词典,返回分词词典list
def read_dic(dic_path):
 excel = xlrd.open_workbook(dic_path)
 sheet = excel.sheets()[0]
 # 读取第二列的数据
 data_list = list(sheet.col_values(1))[1:]
 return data_list
#逆向最大匹配法分词
def cut_words(raw_sentences,word_dic):
 word_cut=[]
 #最大词长,分词词典中的最大词长,为初始分词的最大词长
 max_length=max(len(word) for word in word_dic)
 for sentence in raw_sentences:
   #strip()函数返回一个没有首尾空白字符(‘\n'、‘\r'、‘\t'、‘')的sentence,避免分词错误
   sentence=sentence.strip()
   #单句中的字数
   words_length = len(sentence)
   #存储切分出的词语
   cut_word_list=[]
   #判断句子是否切分完毕
   while words_length > 0:
     max_cut_length = min(words_length, max_length)
     for i in range(max_cut_length, 0, -1):
       #根据切片性质,截取words_length-i到words_length-1索引的字,不包括words_length,所以不会溢出
       new_word = sentence[words_length - i: words_length]
       if new_word in word_dic:
         cut_word_list.append(new_word)
         words_length = words_length - i
         break
       elif i == 1:
         cut_word_list.append(new_word)
         words_length = words_length - 1
   #因为是逆向最大匹配,所以最终需要把结果逆向输出,转换为原始顺序
   cut_word_list.reverse()
   words="/".join(cut_word_list)
   #最终把句子首端的分词符号删除,是避免以后将分词结果转化为列表时会出现空字符串元素
   word_cut.append(words.lstrip("/"))
 return word_cut
#输出分词文本
def outfile(out_path,sentences):
 #输出模式是“a”即在原始文本上继续追加文本
 with codecs.open(out_path,"a","utf8") as f:
   for sentence in sentences:
     f.write(sentence)
 print("well done!")
def main():
 #读取待分词文本
 rawfile_path = r"逆向分词文本.txt"
 raw_file=readfile(rawfile_path)
 #读取分词词典
 wordfile_path = r"words.xlsx"
 words_dic = read_dic(wordfile_path)
 #逆向最大匹配法分词
 content_cut = cut_words(raw_file,words_dic)
 #输出文本
 outfile_path = r"分词结果.txt"
 outfile(outfile_path,content_cut)
if __name__=="__main__":
 main()

python实现机械分词之逆向最大匹配算法代码示例

总结

分析分词结果可以知道,机械分词的效果优劣,一方面与分词匹配算法有关,另外一方面极其依赖分词词典。所以若想得到好的分词效果,处理相关领域的文本时,需要在分词词典中加入特定领域的词汇。

来源:http://blog.csdn.net/lalalawxt/article/details/75477931

标签:python,分词算法
0
投稿

猜你喜欢

  • 微信小程序弹窗禁止页面滚动的实现代码

    2024-02-25 17:28:21
  • Python import与from import使用及区别介绍

    2022-05-17 12:09:19
  • Python中的字符串查找操作方法总结

    2021-06-13 12:21:46
  • 简单有效上手Python3异步asyncio问题

    2022-01-14 02:28:34
  • Python之string编码问题

    2021-08-28 15:25:48
  • Django模板语言 Tags使用详解

    2022-09-27 23:37:35
  • Python 网络爬虫--关于简单的模拟登录实例讲解

    2022-11-21 16:52:55
  • python基础while循环及if判断的实例讲解

    2021-02-18 06:56:06
  • mysql 单机数据库优化的一些实践

    2024-01-15 19:01:25
  • 用ASP显示ACCESS数据库的的GIF图象

    2008-11-20 16:35:00
  • ubuntu系统下使用pm2设置nodejs开机自启动的方法

    2023-10-02 22:23:16
  • jQuery技巧

    2009-09-27 12:28:00
  • windows系统下Python环境搭建教程

    2021-06-25 11:07:53
  • Python中更优雅的日志记录方案详解

    2023-09-02 13:43:03
  • Google谷歌的CSS前景图片合并技术

    2009-07-13 12:21:00
  • python正向最大匹配分词和逆向最大匹配分词的实例

    2021-11-24 22:39:58
  • vue 集成jTopo 处理方法

    2024-05-09 15:17:42
  • JavaScript 数据结构之字典方法

    2024-04-16 09:28:22
  • python arcpy练习之面要素重叠拓扑检查

    2021-12-24 12:41:42
  • Python读写docx文件的方法

    2023-08-16 21:15:11
  • asp之家 网络编程 m.aspxhome.com