采集站SEO教程：怎么处理内容（3）

有基友留言说“没图你说个屁”，本渣渣想哪里没留图了，一看上篇结尾还真没把图片加上。因为文章我用markdown排版，图片引用七牛的图床，在微信编辑器转成富文本的时候正常显示，一发布的时候就漏掉了，微信公众号的图片不能引用外部链接

采集内容上线逻辑

有基友问采集的内容怎么分类，抓取的词怎么分类。其实很简单，做个小网站就都明白了，本渣渣在此科普下

采集内容清洗后是要入库的，入库就得有逻辑，所以在采集一开始就得想到这点，并设计采集到上线的流程

每个站点情况都不一样，但最最基础的模式类似下面这种：

确定要做的主题，从这个主题里选几个词根，一个词根或几个词根就代表一个内容分类
用词跟去扩展，挖出要做的流量词
挖出来的词，依次去抓取对应的内容

如上图，比方说我设定1个词根，从这个词根挖出10个扩展词，每个扩展词分别抓20篇内容，那么在这个词根(内容主题)下，我有100篇内容可以上线。那要上线的页面一般分两个：

详情页面
聚合页面

那么，详情页面就是抓过来的100篇内容；聚合页面就是由词根挖出来的10个扩展词，每个扩展词生成一个列表页或其他形式的聚合页面，页面内容就是对应这个词采集的20篇内容。

数据表格式

所以，上线起码要有3个表，用mysql举例，要是用mongodb啥的非关系型数据库自己转化一下~~~

词根表

频道频道ida1b2c3……

扩展词表

关键词关键词id所属频道id优先级相关词word111skw1,kw2,kw3..word221skw1,kw2,kw3..word332akw1,kw2,kw3..word442akw1,kw2,kw3..word552akw1,kw2,kw3..word663akw1,kw2,kw3..word773akw1,kw2,kw3..word883akw1,kw2,kw3..……………

每个扩展词都标记所属频道的id，这样上线的时候就可以做同频道扩展词的相互推荐

另外可以对每个扩展词，通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级，优先级高的词在站内给予更多的链接支持

这个字段可以弄成动态的，比方说上线后每周查一遍排名，凡是在第二页、第三页的关键词优先级都调整到最高，提供更多的链接支持冲到第一页去…

相关词就是这类词的同义词，或者干脆抓这个词的相关搜索，把这些词嵌入到页面中，万一被用户搜索命中就能跑到首页呢…

其他根据具体需求设置调整扩展词表的字段，全靠创新，没固定的套路

详情内容表

标题正文文章id所属扩展词id所属频道idtitle1content1111title2content2111title3content3111title4content4211title5content5211title6content6211title7content7321title8content8321title9content9321……………

每个文章都映射所属扩展词id和所属频道

举个实例

以上是个最简单的模式，可以用这个模式根据网站本身的情况去套，比方说我有个卖音乐设备的站，网站主要内容就是围绕产品或品牌的产品信息。

音乐设备行业固定搜索词不多，但深挖的话有能找到不少个性化的搜索词，比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索，不能像“XX价格”、“XX测评”适用于所有产品和品牌，可以批量上页面的。

但又想拿到这些个性化搜索词的流量怎么办？没办法通过改现有页面标题来覆盖，那就只能每个词生成新页面来覆盖了，而网站主要内容是产品信息，无法覆盖这种个性化搜索词，那就只能去采集喽

那么根据上图的套路，那么词根就是每个产品和品牌，用这些词去各种渠道找流量词，找到流量词再去大平台抓对应的内容。

到了上线阶段，理想情况下是每个扩展词采集20篇内容，这样生成的聚合页都有20条信息（Zero大神测试过，列表页信息条数在20条的时候，获得首页排名的概率比其他条数要高），但理想很美好，现实很残酷，并不可能所有的扩展词都能抓到20条内容，那么怎么办？

每个扩展词都有所属词根的，而每个所属词根在站内都是有产品信息内容的，所以一个词根下的扩展词，在数据库内除了有采集过来的内容，也有原先就有的产品信息内容，这些两类内容虽然说得不是一个词，但是都在同一个主题下，都是属于某个品牌或产品的。一个扩展词只采集到3条内容，生成新页面则是个空短页面，不会被收录，那么可以再调用这个扩展词所属词根的产品信息来补全，以此来提升页面质量

转载请注明：思享SEO博客 » 采集站SEO教程：怎么处理内容（3）

采集站SEO教程：怎么处理内容（3）

采集内容上线逻辑

数据表格式

词根表

扩展词表

详情内容表

举个实例

推荐阅读

Python实现聚合问答采集文章

python怎么采集内容标题进行重写伪原创

搜狗石榴算法上线，打击网站恶劣采集行为

与本文相关的文章