今天给一个分析一个客户的快照,突然想起了,以前好像没有写过关于搜索引擎的分词策略这块内容的文章,那今天就写一段。
其实这块的内容很多,细说能说个三天两夜,我只能说说据我了解的那么一点。
搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。
例子:我们/都是/中国人
1.基于字符串匹配的分词办法
依据一定的战略将待剖析的汉字串与一个极端词库中的词条实行匹配。
常用分词的办法:
正向最大匹配法(由左到右的方向)
分词测试例子:我/有意/见/分歧
反向最大匹配法(由右到左的方向)
分词测试例子:我/有/意见/分歧
据少量测试数据统计后果标明:单纯运用正向最大匹配的错误率为1/169,单纯运用反
向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
2.基于统计的分词办法
相邻的字一同显示的次数越多,就越有能够组成一个词。用于零碎主动辨认新词。
3.基于了解的分词办法
在分词的一同实行句法、语义剖析,应用句法信息和语义信息来处置歧异景象。
/img/logo.jpg)
很好的文章,感谢分享。