python怎么采集内容标题进行重写伪原创

Python与SEO 思享 520浏览
摘要:
内容采集是站长常常需要的工作,而为了进一步提升采集内容的SEO价值,往往需要对内容进行进一步处理,其中修改标题就是最重要的一项,如果一个个修改太累了,怎么通过python批量进程重写伪原创呢?

今天给大家分享一个运用Python来实现对文章标题进行重写的一个小技巧。最近自己也是在学Python和web前端的知识,之前自学过Python,但是都是17年的时候了,而且学的都是比较速成的那种,不需要去了解程序为啥这么运行,脚本运行的结果是正确的,可取的就行。今年的疫情让我彻底的把铁饭碗给弄丢了,因为我去年做的是餐饮行业,哈哈。现在也算是一个被迫辞退的失业者。

想着大半年都过去了,懒散的性格也挥之不去,索性在家修身养性算了。既然赚不到钱,那么就多学点知识,所以把之前的所有没有看过的书,看一遍,所有没有看过的教程看一遍,所有想学没有时间学(其实就是懒)的东西都学一遍。技多不压身。也随之重新开了一个博客。写点东西,记录自己的一些所见所想,在这个过程中说不定等着等着自己的第二春就来了!

从13年开始接触SEO,之间也做过大大小小,多多少少几百个站点,成功的站点,emmmm屈指可数。哈哈,这个没有办法,自己的性格使然,以前很内向,很多问题不愿意去请教别人,宁愿自己去摸索,导致吃了很多的闭门羹。所以那些成功的站点,都是来之不易的。现在的话就是想把一些我觉得我认为好的东西记录下来!

话不多说,开始我们今天的分享吧,我们在做SEO的时候都知道,我们如果要做权重站,流量站,那么势必需要有大量的页面去承载关键词,而承载关键词最重要的页面就是文章页面,那么换句话来说,就是我们需要有大量的文章放置在网站里面。而一个人在短时间内是创造不出这么多的文章,所以采集文章,成为了众多网站站长的首选。而现在百度对于采集这个点,从技术上说百度是可以识别的。大家可以去看看《劲风算法官方解读》。

这里面透露了几个点大家可以注意一下:

  1. 百度是默认可以采集的,没有说不允许采集,而是采集的内容需要过关,需要进行二次加工处理。
  2. 采集的内容需要和站点本身主旨一致。这个基本上都不会犯错,除非你成语站采集了娱乐新闻。这种低级别的错误去发生,但是你采集了一些故事、作文类型的。其实是可以的。
  3. 聚合的页面不要存在空白页面信息,还有就是内容的主旨要相近!这个自己去体会。

那么,直接采集其他站点的网站文章,这种方式针对以上所说的第一点,我们就需要进行页面的加工处理。那么假设你要做一个权重6以上的页面的话,你的文章数量起码都是需要几十万上下了吧。如果依靠你自己的纯手动的去操作,明显不现实。所以这个时候最好的方法就是通过程序脚本去实现。在这里我给大家分享一个小demo。大家感兴趣的可以自己去优化一下。

重写原理

其实我的逻辑很简单,因为我们在写SEO文章的时候,基本上都是分为两段式的,而且很多的标题都会把长尾词或者说是文章的流量词写在第一个分句里面,后面的分句往往都是修饰前面的分句。那么我们可以更换修饰句来提升标题的原创性。而达到整体的标题大致的意思不变!

Python实现

1、首先你可以导入你所需要修改的文章标题,我拿以下这些标题举例子!

text = [
'零食很忙加盟需要多少钱?省会城市开店要准备299000元!',
'零食很忙怎么加盟?开店流程为大家逐步介绍!',
'探虾迹小龙虾加盟费多少钱?投资开店仅需29-42万元!',
'停不了小龙虾加盟如何?合作开店想不到优势这样多!',
'coco都可加盟费太贵了 2020年奶茶店收费明细出来了',
'阿甘锅盔挣钱吗 经营掌握这4点开店就能多赚钱!',
'停不了dgfd小龙虾加盟如何?合作开店想不到优势这样多!',
'coco都可加sfgs盟费太贵了!2020年奶茶店收费明细出来了',
'阿甘锅盔agafg挣钱吗.经营掌握这4点开店就能多赚钱!',
'停不了小龙虾加hfdh盟如何。合作开店想不到优势这样多!',
'coco都可加盟ddfh费太贵了:2020年奶茶店收费明细出来了',
'阿甘锅盔挣钱吗 经营掌握这4点开店就能多赚钱!',
'重庆杨家火锅加盟多少钱!400㎡门店需要投入200万元'
]

2、然后进行标题切割处理。我们以:问号、空格、感叹号左右分割的标记来切割,通过正则多匹配来切割

import re

text = [
'零食很忙加盟需要多少钱?省会城市开店要准备299000元!',
'零食很忙怎么加盟?开店流程为大家逐步介绍!',
'探虾迹小龙虾加盟费多少钱?投资开店仅需29-42万元!',
'停不了小龙虾加盟如何?合作开店想不到优势这样多!',
'coco都可加盟费太贵了 2020年奶茶店收费明细出来了',
'阿甘锅盔挣钱吗 经营掌握这4点开店就能多赚钱!',
'停不了dgfd小龙虾加盟如何?合作开店想不到优势这样多!',
'coco都可加sfgs盟费太贵了!2020年奶茶店收费明细出来了',
'阿甘锅盔agafg挣钱吗.经营掌握这4点开店就能多赚钱!',
'停不了小龙虾加hfdh盟如何。合作开店想不到优势这样多!',
'coco都可加盟ddfh费太贵了:2020年奶茶店收费明细出来了',
'阿甘锅盔挣钱吗 经营掌握这4点开店就能多赚钱!',
'重庆杨家火锅加盟多少钱!400㎡门店需要投入200万元'
]

for title in text:
title = re.split(r'[?? 。::!!]',title)[0]
print(title)

这样我们就可以获取到前面标题的文字,如图

标题

这样我们就可以获取到前面标题的文字,如图当我们提取了前面的核心词或者是文章的长尾词后,我们只需要去批量的加修饰词就行!

3、导入random随机模块。

# coding:utf-8
import re,random

text = [
'零食很忙加盟需要多少钱?省会城市开店要准备299000元!',
'零食很忙怎么加盟?开店流程为大家逐步介绍!',
'探虾迹小龙虾加盟费多少钱?投资开店仅需29-42万元!',
'停不了小龙虾加盟如何?合作开店想不到优势这样多!',
'coco都可加盟费太贵了 2020年奶茶店收费明细出来了',
'阿甘锅盔挣钱吗 经营掌握这4点开店就能多赚钱!',
'停不了dgfd小龙虾加盟如何?合作开店想不到优势这样多!',
'coco都可加sfgs盟费太贵了!2020年奶茶店收费明细出来了',
'阿甘锅盔agafg挣钱吗.经营掌握这4点开店就能多赚钱!',
'停不了小龙虾加hfdh盟如何。合作开店想不到优势这样多!',
'coco都可加盟ddfh费太贵了:2020年奶茶店收费明细出来了',
'阿甘锅盔挣钱吗 经营掌握这4点开店就能多赚钱!',
'重庆杨家火锅加盟多少钱!400㎡门店需要投入200万元'
]

suiji_txt = [
'一线城市开店仅需24.13万元!',
'这3个技巧让你收益更上一层楼',
'仅需6.85万元就能建立小型店!',
'一线城市建立10㎡门店仅需11.4万元!',
'这几点要求要知道',
'特色美食项目总投资为12.6万元',
'全方面了解具体开店要求',
'它是哪个公司的项目?'
]

for line in text:
title = re.split(r'[?? 。::!!]',line)[0]
suiji = random.sample(suiji_txt, 1)[0]
print(title,suiji)

效果如下:

伪原创标题

Ps:为啥要随机修饰词呢,一方面就是快速啊。你在你的行业里面找一些修饰词差不多意思的,和大部分的文章都可以匹配到的那种,就行了。直接这么一键生成多块,软件脚本生成一秒不到,你自己手打,复制粘贴也得花三个几分钟吧!当然这种方法肯定是有行业限制的,只是这个是一种思路。至于你能够想到那些思路,那就是你的事情了!告辞!!!!

推荐阅读

Python实现聚合问答采集文章

最近在一个社区得到了一个用python聚合问答的工具,但是因为已经打包成程序了,所以无法研究,于是在网上找了一个网友分享的源代码,转载于此,供志愿者学习和后期扩展。这个工具可以通过头条搜索、百度下拉结果、搜狗下拉、百度知道搜索、新浪爱问、搜狗问问,将......

js实现内容超出一定高度后折叠 点击展开收起

200px以外的部分内容被隐藏,底部显示蒙版图层和查看全文按钮。类似的效果请见csdn的博客内容页。#渐变{宽度:100%;高度:50px位置:绝对;底部:0;左:0;背景:-moz-linear-gradient;背景:-WebKit-gradie......

7ghost:可替换内容的PHP反向代理程序

错误报告在PHP的未来版本中,与类同名的PHP方法将不再是构造函数...