在搜索引擎技术中,中文分词对搜索引擎的排序结果起着至关重要的作用。我们在实际的搜索引擎优化中,为了避免很多主关键词的大量竞争,也会使用中文分词技术来做SEO优化。举个简单的例子,假如我们需要优化一个关于“轴承”的网页,此时如果想要提高这个网页在搜索引擎中的排名,那就是很难的一件事了。因为“轴承”这个关键词热度太高,所以想要通过SEO手段去将其优化到搜索结果的首页是一件非常难的事。此时我们就可以使用长尾关键词去优化这样的高热度关键词,也就是说,我们可以去优化,—些例如“北京轴承销售商”、“北京进口轴承”等这样的关键词。而想要把这样的关键词做到搜索结果的前列,则与操作者对中文分词技术和关键词布局的把握有很大的关系了。
一、中文分词的重要性
中文分词的渊源
中文分词在中国已经有很悠久的历史了,明朝末年有一位画家名叫徐渭(文长),据说因为他家过于贫困,没有饭吃,所以只好到亲戚朋友家“蹭饭”。一次两次亲戚朋友不觉得什么,但是时间长了,就心生厌恶。终于有一天,亲戚忍无可忍,不顾外面下着春雨就要把徐渭赶出去,于是在墙上写了一行字,委婉地下了逐客令:
“下雨天留客天留人不留”
徐渭看到这行字以后,心里自然明白亲戚的意思。但是到了晚上亲戚回到家一看,徐渭居然又在饭桌前等候。主人很奇怪,就问徐渭:“你看到墙上的字了吗?”徐渭笑笑:“看到了,但是没想到你这么好客,既然这样,我也不客气了,就继续住下去吧!免得你自责招待不周。”说完,指指墙上的字,主人一看,差点气晕过去,原来,徐渭在这行字上加了几个标点符号。主人无奈,只好让徐渭继续留下。徐渭是这么写的:
“下雨天,留客天。留人不?留。”
中国的文字博大精深,不同的标点符号,不同的断句就代表着不同的意思。所以,曾经有一位Google的研究者说:“如果可以做好中文搜索引擎,那么我们就不怕研究任何语种的搜索引擎了。”
那么中文分词在搜索引擎优化中究竟具有怎样的意义呢?分词对SEO的影响是多方面的,最重要的就是对长尾流量的影响。例如说我们常常想对很多长尾关键词进行优化,如广州进口轴承销售,上海进口轴承销售等,但通过前文对SEO的了解我们知道,一个页面的关键词不要超过3个,因为超过3个就会分散每个关键词的权重。但如果我们想做超过3个的关键词又不影响它们的权重呢?这时就需要利用中文分词来对关键词进行组合了,例如。这样分出来的结果可能没有广州进口轴承销售或上海进口轴承销售的关键词直接,但用这样分词的办法却使得很多词都获得不错的效果。多个词排名在搜索引擎结果页的首位,总要比一个关键词排名在第一位的覆盖面要广。久而久之,因为广州十进口轴承销售、上海+进口轴承销售这些页面让搜索引擎知道你的页面和“进口轴承销售”这个关键词相关度很高,所以进口轴承销售这个主关键词的排名也会相对提高。
二、基于最大匹配的分词方式
最早的中文分词办法是由北京航天航空大学的梁南元教授提出的,是一种基于“查字典”方式的分词办法。例如这个句子:“著名导演张艺说国庆节晚上将安排IO万人到广场联欢”。
用“查字典”的分词方法,我们要做的就是把整个句子读一遍,然后把字典里有的词都单独标识出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。据此,我们以上的文字可以切分为:
“著名\导演\张艺\说\国庆节\晚上\将\安排\10万人\到\广场\联欢”。
这样的分词办法虽然可以应付很多的句子,但是由于分得太细,在搜索引擎使用过程中,究竟哪一个词才是重点就无法表述,因此搜索引擎搜索出的结果也不能达到最大相关度。于是在20世纪80年代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多地让搜索引擎更明白这句话究竟是什么意思。但是这样的办法虽然更好,新的问题却也显现了出来。例如,我仃)在做“二义性”关键词组的时候,就不能说最长的分割就是最好的结果。犖个例于,“吉利大学城书店”这个关键词正确的分词应该是“吉利\大学城\书店”而不是词典中的“吉利大学\城\书店”。
三、基于统计模型的分词原理
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。当两者的紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而义叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,这种现象会造成常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新词,即将串频统计和串匹配结合起来,这样既能发挥匹配分词切分速度快、效率高的特点,又可以利用无词典分词结合上下文识别生词、自动消除歧义的优点。
下面讲一下基于字符串匹配的逆向最大匹配法。
一般来说,我们在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这个办法其实很简单,我们以一个简单的例子来说明。
中文分词实例
“瑞星一直以质量和服务开拓安全市场。”
如果这个句子我们以“查字典”的办法正向切分的话,就会切分成下面的句子:
“瑞星\一直\以\质量\和服\务\开拓\安全\市场。”
我们可以看到,正向切分出现了一个重大的错误“和服”,而“和服”这个关键词的意思是日本的传统服饰,和这句话的意思根本没有任何关系,如果这样去分词的话,那么在搜索引擎索引的过程中,我们搜索“和服”时也会出现这样的错误结果。
因此我们开始做逆向最大匹配法,从这句话的后面往前读(从右向左):
“瑞星\一直\以\质量\和\服务\开拓\安全\市场”。
此时这个分词办法才是正确的。
四、新词的处理办法
在搜索引擎运行的机制中,有很多种中文分词的办法,例如正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中,分词的办法却没有这么简单。因为搜索引擎不仅仅要去考虑分词结果的正确性,还需要考虑到对分不出来的词的处理。
首先我们来讨论分词结果的准确度。一般来说,搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的,因为这样可以让词汇最大化、更准确地分开。混合分词的原理是:先使用专业词典进行分词,再使用普通词库进行一次分词。以如下一个简单的例子来说明这个问题。
例如这样一句话:“电子邮件营销”。如果我们的词库中有“电子邮件”这个关键词,那么这句话就可能会被分成是“电子邮件、营销”,如果没有这个词的话,就有可能被分为:“电子”邮件“营销”。这样就出现了一个问题,假如我们单纯地使用第一种分词方式和词库,当我们在搜索“邮件”、“营销”这样的关键词时,就找不到“电子邮件营销”这样的结果。同理,单纯地使用第二个词库,也找不到“电子邮件”这个词。
因此在这里我们就需要使用混合分词的办法,即使用至少两个词库和两种以上的分词方法。同样的例子,如果我们加以综合,分词的结果就变成了下面的形式:
电子邮件营销→电子邮件\邮件营销→电子\邮件\营销。
这样的分词方法,就可以帮助我们更多地狱付惟佣的搜索结果。
那么对于分不出来的词,搜索引擎又是如何操作的呢?
网络文化发展速度快的标志不仅仅是我们日益提高的硬件性能和网速,更多地是表现在,新生词汇的诞生上。那么新词刚刚出现搜索引擎并不知道怎么切分时,该怎么办呢?
为了能够更明显地说明搜索引擎对分不出来的词的应对方式,我们临时创造一个没有意义的新词“化軏牛”,如图所示:
[caption id="attachment_274" align="alignnone" width="684"] 新创造的词[/caption]
例如我们的原始搜索词是:“化軏牛是一种食草动物”。
一般来说,搜索引擎遇到这样的关键词时,会采取一元分词十二元分词+混合分词+不分词的方式来解决。如果是—/户元分词,那么这句话分出来的结果应该是:“化\軏\牛\是\一种\食草\动物\”或者“化\軏\牛\是\一种\食草动物1”或者“化\軏\牛\是\一种\食\草\动物\”。
但是显然,这样的结果在搜索“化軏牛”这个关键词时,是不会准确地被认为是相关内容的。因此,继续使用二元分词的办法将其划分为“化軌\軏牛\是\一种\食草\动物”。有了这个分词方式以后,我们原来句子出现在索引结果中的概率就变大,但是这个依然不是最好的,是搜索弓l擎还有第3种方式——干脆不分,以保持新词的完整性。
在经过了这一系列的分词程序后,实际分词的结果如下:
化軏\軏牛\化軏牛\是\一种\食草\食\草\动物\食草动物。
利用中文分词进行长尾关键词操作
前面我们讨论过,掌握了中文分词技术,我们就可以让自己的网页有更多的长尾关键词,从而让更多的关键词可以排名在百度、Google的搜索结果前列。那么借鉴上面的这两种分词方法,我们就可以根据更多这样的分词理论去构建一个长尾的title,长尾的keywords等,从而让你的网站获得更高的流量。