一堆屎在你面前展示多久你会吃?
这个问题很可笑吗? 假如没有词库,很可能SEO过程中展示的就是一堆屎。
一、词库整理的大概流程
词库整理的目的是通过模板把尽可能多的词表示出来。不要在词库这一步掺和进其他乱七八糟的需求,比如这批词如何生成内容,竞争程度怎样等等。词库流程如下图所示:
二、词库整理的三个重要点
- 词根
- 受控词表
- 组成模板
1、词根
词库最终会被整理成{前缀}+词根+{后缀}(三个未必全部出现)的形式。整个公式中,我们唯一能确定的就是词根,基础也是词根。下面我们会说如何解决词根问题。
2、受控词表
受控词表就是某类关键词的聚合组成的表。比如在{城市}+旅游这批关键词中,城市这个大集合包含很多关键词,例如深圳,上海等。受控词表的建立只能通过观察规律加手动修改来完成,比如我们发现,城市+旅游这种逻辑,只需要通过正则把旅游前面的词匹配出来,在替换,去重,正则之后人工删选。
3、组成模板
每个词库都不太相同,甚至同样一份词库,两个人操作结果都不同。比如{地区}+{岗位}这种词,有些人会觉得地区重要,有些人会觉得岗位重要。
三、词库整理的一些细节
- tf-idf如何计算? 可以通过jieba分词。
传送:GitHub - fxsjy/jieba: 结巴中文分词
其实就是一行代码,返回一个tags列表
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- 词库划分到什么颗粒停止?
这个根据自己的需求来定,组成模板的词数量越少,词库划分越精准。 - 有什么好的工具吗?
没有。
我们可以看流程图,词库整理是一个不断循环的过程,这就意味着,每循环一次,我们就需要建立对应的表格(或者叫页面)来存储数据。现在我能想到最好的满足这种需求的东西就是网站,我正在做这个网站。