资讯中心 / NEWS

新闻中心精辟网文网络营销建站知识网站建设信息化 SEO网络推广合作客户与伙伴做网站解决方案网站维护与安全

地址：长沙市韶山南路248号南园503
室(潇湘晨报旁)
电话：0731-88571521
手机：136-3748-2004
Q Q：44377655 522392221
网址：www.binweb.cn
邮箱：522392221@qq.com

网络营销

长沙做网站联系电话：0731-88571521 13637482004

如何了解百度搜索引擎的中文分词技术

信息来源：长沙做网站发布时间：2013-10-24 浏览：

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。

　　定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

　　前面我们有讲到《SEO之基于字符串匹配的分词方法》和《SEO之基于理解的分词方法》，那么这三种方法中，到底是哪种SEO分词算法的准确度更高，目前尚无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，对于中文词的识别，需要综合多种算法来处理不同的问题。

　　分词准确性对搜索引擎来说非常重要，如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会影响到搜索引擎对内容的更新速度。因此对于搜索引擎来说，分词的准确性和速度，都需要达到很高的要求。

相关热点文章