Java实现的最大匹配分词算法详解

作者:送人玫瑰手留余香 时间:2021-12-30 00:50:04 

本文实例讲述了Java实现的最大匹配分词算法。分享给大家供大家参考,具体如下:

全文检索有两个重要的过程:

1分词

2倒排索引

我们先看分词算法

目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,P(AB)表示AB相邻出现的概率,P(A)表示A在这篇文章中的频度,P(B)表示B在这篇文章中的频度。用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率。

另外的一个方向是使用词典分词。就是事先为程序准备一个词典,然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。

以 “我是一个坏人” 为例,并最大词长为3,词库包含有我、是、一、个、一个、坏人、大坏人

正向的顺序为

我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个坏
一个===> 得到一个词
坏人===>得到一个词

结果 我、是、一个、坏人

反向算法

个坏人
坏人==> 坏人
是一个
一个==> 一个
我是
是==> 是
我==> 我

结果 我、是、一个、坏人

java代码如下


package data;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;
/**
* 最大匹配分词算法
*
* @author JYC506
*
*/
public class SplitString {
private Set<String> set = new HashSet<String>();
private int positiveOver = 0;
private int reverseOver = 0;
/**
 * 正向最大匹配
 *
 * @param str 要分词的句子
 * @param num 词的最大长度
 * @return
 */
public String[] positiveSplit(String str, int maxSize) {
 int tem = 0;
 int length = str.length();
 String[] ss = new String[length];
 char[] cc = str.toCharArray();
 for (int i = 0; i < length; i++) {
  positiveOver = 0;
  String sb = this.toStr(cc, i, maxSize);
  ss[tem++] = sb;
  i = i + positiveOver;
 }
 String[] ss2 = new String[tem];
 System.arraycopy(ss, 0, ss2, 0, tem);
 return ss2;
}
/**
 * 添加词库
 *
 * @param words
 */
public void addWord(String[] words) {
 for (String st : words) {
  this.set.add(st);
 }
}
/**
 * 逆向最大匹配
 *
 * @param str
 * @param num
 * @return
 */
public String[] reverseSplit(String str, int num) {
 int tem = 0;
 int length = str.length();
 String[] ss = new String[length];
 char[] cc = str.toCharArray();
 for (int i = str.length() - 1; i > -1; i--) {
  reverseOver = 0;
  String sb = this.toStr2(cc, i, num);
  tem++;
  ss[--length] = sb;
  i = i - reverseOver;
 }
 String[] ss2 = new String[tem];
 System.arraycopy(ss, str.length() - tem, ss2, 0, tem);
 return ss2;
}
private String toStr(char[] cs, int start, int num) {
 int num2 = num;
 out: for (int j = 0; j < num; j++) {
  StringBuffer sb = new StringBuffer();
  for (int i = 0; i < num2; i++) {
   if (start + i < cs.length) {
    sb.append(cs[start + i]);
   } else {
    num2--;
    j--;
    continue out;
   }
  }
  if (set.contains(sb.toString())) {
   positiveOver = num2 - 1;
   return sb.toString();
  }
  num2--;
 }
 return String.valueOf(cs[start]);
}
private String toStr2(char[] cs, int start, int num) {
 int num2 = num;
 for (int j = 0; j < num; j++) {
  StringBuffer sb = new StringBuffer();
  for (int i = 0; i < num2; i++) {
   int index = start - num2 + i + 1;
   if (index > -1) {
    sb.append(cs[index]);
   } else {
    num2--;
   }
  }
  if (set.contains(sb.toString())) {
   reverseOver = num2 - 1;
   return sb.toString();
  }
  num2--;
 }
 return String.valueOf(cs[start]);
}
public static void main(String[] args) {
 String[] words = new String[] { "我们", "我们五人", "五人一组", "一组" };
 SplitString ss = new SplitString();
 /*添加词到词库*/
 ss.addWord(words);
 String st = "我们五人一组";
 System.out.println("脚本之家测试结果:");
 System.out.println("要分词的句子:" + st);
 /*使用两种方式分词,下面我指定最大词长度为4*/
 String[] ss2 = ss.reverseSplit(st, 4);
 String[] ss1 = ss.positiveSplit(st, 4);
 System.out.println("正向最大匹配分词算法分词结果:" + Arrays.toString(ss1));
 System.out.println("逆向最大匹配分词算法分词结果:" + Arrays.toString(ss2));
}
}

Java实现的最大匹配分词算法详解

希望本文所述对大家java程序设计有所帮助。

来源:http://blog.csdn.net/h348592532/article/details/45537487

标签:Java,算法
0
投稿

猜你喜欢

  • 浅谈maven的jar包和war包区别 以及打包方法

    2022-07-20 20:14:44
  • java去除字符串中的空格、回车、换行符、制表符的小例子

    2022-04-13 12:33:44
  • 一篇文章带你入门Springboot沙箱环境支付宝支付(附源码)

    2021-06-26 23:21:16
  • Java的动态绑定与双分派_动力节点Java学院整理

    2021-07-14 11:18:50
  • 教你怎么用Idea打包jar包

    2023-03-15 03:30:51
  • 每日六道java新手入门面试题,通往自由的道路

    2023-11-13 16:22:29
  • 使用Spring Data JDBC实现DDD聚合的示例代码

    2022-05-04 05:11:23
  • JavaWeb实现文件上传下载功能实例详解

    2023-05-08 19:43:51
  • Java语言描述二叉树的深度和宽度

    2021-12-02 10:59:34
  • Java NIO中四大核心组件的使用详解

    2023-10-19 17:05:13
  • Java语言实现简单FTP软件 FTP上传下载队列窗口实现(7)

    2021-07-25 04:01:58
  • springboot配置文件中属性变量引用方式@@解读

    2023-11-24 20:39:18
  • 一文搞懂并学会使用SpringBoot的Actuator运行状态监控组件的详细教程

    2022-01-31 10:28:23
  • 深入解析Java并发程序中线程的同步与线程锁的使用

    2022-03-19 10:25:38
  • java使用动态代理来实现AOP(日志记录)的实例代码

    2023-11-28 22:34:45
  • C#设计模式之外观模式介绍

    2023-03-15 06:22:31
  • springboot动态定时任务的实现方法示例

    2023-04-20 15:59:58
  • Springcloud Config配置中心使用与相关介绍

    2021-07-13 05:15:17
  • Java实现解出世界最难九宫格问题

    2022-06-14 19:47:10
  • springboot schedule 解决定时任务不执行的问题

    2021-05-30 05:00:38
  • asp之家 软件编程 m.aspxhome.com