一堆屎在你面前展示多久你会吃?

这个问题很可笑吗? 假如没有词库,很可能SEO过程中展示的就是一堆屎。

一、词库整理的大概流程

词库整理的目的是通过模板把尽可能多的词表示出来。不要在词库这一步掺和进其他乱七八糟的需求,比如这批词如何生成内容,竞争程度怎样等等。词库流程如下图所示:

词库整理流程

二、词库整理的三个重要点

  • 词根
  • 受控词表
  • 组成模板

1、词根

词库最终会被整理成{前缀}+词根+{后缀}(三个未必全部出现)的形式。整个公式中,我们唯一能确定的就是词根,基础也是词根。下面我们会说如何解决词根问题。

2、受控词表

受控词表就是某类关键词的聚合组成的表。比如在{城市}+旅游这批关键词中,城市这个大集合包含很多关键词,例如深圳,上海等。受控词表的建立只能通过观察规律加手动修改来完成,比如我们发现,城市+旅游这种逻辑,只需要通过正则把旅游前面的词匹配出来,在替换,去重,正则之后人工删选。

3、组成模板

每个词库都不太相同,甚至同样一份词库,两个人操作结果都不同。比如{地区}+{岗位}这种词,有些人会觉得地区重要,有些人会觉得岗位重要。

三、词库整理的一些细节

  • tf-idf如何计算? 可以通过jieba分词。
    传送:GitHub - fxsjy/jieba: 结巴中文分词
    其实就是一行代码,返回一个tags列表
    jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
  • 词库划分到什么颗粒停止?
    这个根据自己的需求来定,组成模板的词数量越少,词库划分越精准。
  • 有什么好的工具吗?
    没有。
    我们可以看流程图,词库整理是一个不断循环的过程,这就意味着,每循环一次,我们就需要建立对应的表格(或者叫页面)来存储数据。现在我能想到最好的满足这种需求的东西就是网站,我正在做这个网站。
Last modification:November 8, 2019
如果觉得我的文章对你有用,请随意赞赏