中科院软件所张俊林：Baidu分词算法分析（4）

作者：张俊林来源：中科院时间：2008-10-06 17:44:00　

最后让我们总结归纳一下百度的拼写检查系统：

后台作业：

（1）前面的文章我们说过，百度分词使用的词典至少包含两个词典一个是普通词典，另外一个是专用词典（专名等），百度利用拼音标注程序依次扫描所有词典中的每个词条，然后标注拼音，如果是多音字则把多个音都标上，比如”长大“，会被标注为”zhang da/chang da“两个词条。

（2）通过标注完的词条，建立同音词词典，比如上面的”长大“，会有两个词条： zhang daà长大” ， chang daà长大。

（3）利用用户查询LOG频率信息给予每个中文词条一个权重;

（4）OK，同音词词典建立完成了，当然随着分词词典的逐步扩大，同音词词典也跟着同步扩大;

拼写检查：

（1）用户输入查询，如果是多个子字符串，不作拼写检查;

（2）对于用户查询，先查分词词典，如果发现有这个单词词条，OK，不作拼写检查;

（3）如果发现词典里面不包含用户查询，启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注;

（4）对于标注好的拼音在同音词词典里面扫描，如果没有发现则不作任何提示;

（5）如果发现有词条，则按照顺序输出权重比较大的几个提示结果;

拼音提示：

（1）对于用户输入的拼音在同音词词典里面扫描，如果没有发现则不作任何提示;

（2）如果发现有词条，则按照顺序输出权重比较大的几个提示结果;

上面说过，经过分析得出百度的分词系统采用双向最大匹配分词，但是后来发现推理过程中存在一个漏洞，而且推导出来的百度分词算法步骤还是过于繁琐，所以进一步进行分析，看看是否前面的推导有错误。

那么以前的分析有什么漏洞呢？我们推导百度分词有反向最大匹配的依据是百度将“北京华烟云”分词为《北，京华烟云》，从这里看好像采用了反向最大匹配，因为正向最大匹配的结果应该是《北京，华，烟云》，但是由此就推论说百度采用了双向最大匹配还是太仓促了，前面文章我们也讲过，百度有两个词典，一个普通词典，一个专有词典，而且是专有词典的词汇先切分，然后将剩余片断交给普通词典去切分。所以上面的“北京华烟云”之所以被切分成《北，京华烟云》，另外一个可能是：京华烟云这个词汇是在专有词典里面存储的，所以先分析，这样得出“京华烟云”，剩下“北”，没什么好切分的，所以输出《北，京华烟云》。

这里只是假设，那么是否确实“京华烟云”在专有词典呢？我们再看一个例子“山东北京华烟云”，百度切分的结果是《山东，北，京华烟云》，如果“京华烟云”在普通词典，如果是反向切分，那么结果应该是《山，东北，京华烟云》，如果是正向切分应该是《山东，北京，华，烟云》，无论如何都分不出《山东，北，京华烟云》。这说明什么？说明“京华烟云”是在那个专有词典，所以先切分出“京华烟云”，然后剩下的“山东北”交由普通词典切分，明显是正向最大匹配的结果输出《山东，北》。当然按照我们在第一篇文章的算法推导“山东北”的切分也会得出《山东，北》的结论，但是明显比正向最大匹配多几个判断步骤，既然效果一样，另外一个更加简洁的方法也能说得通，那当然选择简便的方法了。所以初步判断百度采取的是正向最大匹配。

我们继续测试采用何种分词算法，为了减少专有词典首先分词造成的影响，那么查询里面不能出现相对特殊的词汇，构筑查询“天才能量级”，这里应该没有专有词典出现过的词汇，百度切分为《天才，能量，级》，看来是正向最大匹配的结果。另外，如果所有查询词汇都出现在专有词典，那么采取的是何种方法？这样首先就得保证词汇都出现在专有词典，这么保证这一点呢？我们构造查询“铺陈晓东方”，百度切分为《铺，陈晓东，方》，可以看出“陈晓东”是在专有词典的所以先切分出来。另外一个例子 “山东京城”，百度切分为《山东，京城》，说明“东京”是在普通词典的.OK，构造查询“陈晓东京华烟云”，通过前面分析可以看出两个词汇都在专有词典里面，百度切分为《陈晓东，京华烟云》，说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配。那么使用反向最大匹配了吗？构造查询例子“陈晓东方不败”，首先我们肯定“陈晓东”和“东方不败”都是在专有词典出现的，如果是正向切分，那么应该是《陈晓东，方，不败》或者《陈晓东，方，不，败》如果是反向切分则是《陈，晓，东方不败》，可以看出百度的切分是《陈晓东，方，不败》或者《陈晓东，方，不，败》，说明采用的是正向最大匹配。通过分析，百度的词典不包含“不败”这个单词，所以实际上百度的切分结果是《陈晓东，方，不，败》，很明显这和我们以前推导的算法是有矛盾的，所以以前的分析算法确实有问题，所以结论是百度采取的是正向最大匹配算法。

重新归纳一下百度的分词系统：首先用专有词典采用最大正向匹配分词，切分出部分结果，剩余没有切分交给普通词典，同样采取正向最大匹配分词，最后输出结果。

另外，GOOGLE也是采用正向最大匹配分词算法，不过好像没有那个专用词典，所以很多专名都被切碎了。

从这点讲，GOOGLE在中文词典构建上比百度差些，还需要加把子力气才行，不过这也不是什么多难的

第一页上一页 1 2 3

标签：分词,搜索,算法,百度

投稿

中科院软件所张俊林：Baidu分词算法分析（4）

猜你喜欢

网络赚钱这样多现象为什么不思考？

Google AdSense西联汇款问题帐户延迟一周付款

搭建apache+svn+trac平台

Discuz! X2开放测试新功能先睹为快

Linux系统下发送Email的C语言代码

竞合将是未来视频行业的主旋律

GoDaddy：如何在File Manager里的多个项目上执行某个操作

微软：“黑屏”反盗版对正版用户是一种保护

浅谈cms系统的seo优化

关于搜索引擎收录量的问题

iis无法启动,发生意外错误0x8ffe2740 解决方法

IBM Lotus Domino 存在代理签名验证权限提升漏洞

链接诱饵案例从一个留言插件引发的思考

对毕业一二年的站长朋友的一些话

新手站长选择广告联盟的四个有效了解途径

美社交网站Ning搬迁至Facebook旧址

新手学堂：Linux操作系统下的软件安装包

“土豆”将闪电完成对“酷6”的并购

Google Adsense提高收入核心技巧揭秘

Hishop参与长沙市电子商务协会筹建

中科院软件所张俊林：Baidu分词算法分析（4）

猜你喜欢

网络赚钱 这样多现象为什么不思考？

Google AdSense西联汇款问题帐户 延迟一周付款

搭建apache+svn+trac平台

Discuz! X2开放测试 新功能先睹为快

Linux系统下发送Email的C语言代码

竞合将是未来视频行业的主旋律

GoDaddy：如何在File Manager里的多个项目上执行某个操作

微软：“黑屏”反盗版 对正版用户是一种保护

浅谈cms系统的seo优化

关于搜索引擎收录量的问题

iis无法启动,发生意外错误0x8ffe2740 解决方法

IBM Lotus Domino 存在代理签名验证权限提升漏洞

链接诱饵案例 从一个留言插件引发的思考

对毕业一二年的站长朋友的一些话

新手站长选择广告联盟的四个有效了解途径

美社交网站Ning搬迁至Facebook旧址

新手学堂：Linux操作系统下的软件安装包

“土豆”将闪电完成对“酷6”的并购

Google Adsense提高收入核心技巧揭秘

Hishop参与长沙市电子商务协会筹建

网络赚钱这样多现象为什么不思考？

Google AdSense西联汇款问题帐户延迟一周付款

Discuz! X2开放测试新功能先睹为快

微软：“黑屏”反盗版对正版用户是一种保护

链接诱饵案例从一个留言插件引发的思考