百度站长平台:百度星火计划2.0

官方课程 思享 1996浏览

百度星火计划项目简述,包括什么是原创,什么是非原创,星火计划2.0要保护被转载的原创,如何加入百度星火计划2.0

百度星火计划2.0官方文档

【百度星火计划项目简述】

百度星火计划项目,是百度搜索为打造绿色搜索新生态,构筑良好的原创环境,让原创者得到应有回报的产品。项目最终目标,是对全网优质原创内容进行识别,并让原创者在搜索引擎中获得收益,进一步激发原创积极性,提升全网内容质量。在项目2.0阶段,我们将优先解决被转载的原创内容利益受损的问题,对被转载的原创进行保护,对独一无二的高价值原创内容做优待,使真正的原创者获得与付出成本对等的收益。

【原创的概念】

原创,与现代社会人们理解的概念一致,是指独立完成创作的作品。
采用歪曲、篡改他人创作,抄袭、剽窃他人创作等手段完成的“作品”,不属于原创,也就是俗称的伪原创。同时也不能称之为改编、翻译、注释。当然把外文翻译成中文,我们是鼓励的!
百度确认的原创是指:由个人或团队独立创作,且内容唯一的作品。

【星火计划2.0项目:保护被转载的原创】

当前,百度星火计划主要是两方面工作:第一,对于有转载的原创网页,百度搜索会从众多相同内容中识别出原创网页,使之在搜索结果中的排序不被对应的转载网页超越;第二,对于通过百度站长平台主动推送的原创数据,我们在识别成功后,会在搜索结果处进行“原创”标记 ,进一步凸显原创内容的价值,为原创者正名。全网被转载的原创内容均在保护范围内,但由于全网每天产生的数据量巨大,从快速识别的角度出发,百度站长平台建议广大站长将原创内容第一时间使用链接提交主动推送方式向百度进行提交,便于百度快速识别进行保护,避免不必要的损失。具体技术执行参考文档可见《百度星火计划原创规范v2.0》,同时请关注《百度星火计划2.0违规处理说明》,避免不必要的收益损失。

【如何加入百度星火计划2.0

目前百度星火计划2.0采用主动邀请内测制,将主要针对新闻、技术博客、攻略、教程、游记等几个内容方向做数据收集与识别。内测会邀请遵守百度原创规范的站点,站长使用链接提交主动推送方式实时将站点每天产生的最新原创内容提交给百度,原创内容推送需要在接口地址中增加type参数,参数类型为original,详情见百度站长平台帮助文档《如何使用主动推送功能

后续百度星火计划2.0会逐步放开名额,直至扩大到全网站点。

百度星火计划原创规范v2.0

百度星火计划所服务的原创内容,需要遵守星火计划原创规范,按照规范要求在原创内容中进行标识,同时使用百度站长平台提供的链接提交-主动推送方式进行提交。

一、原创规范

针对网站产生的原创内容,无论PC站还是移动站,需要站长在页面文本中包含以下内容:发布时间、作者及来源(或出处)。我们不对该内容的摆放位置做严格要求,但建议放置在文章标题下方。同时,需要在页面HTML源代码中使用meta标签来标注。

【星火计划可支持以下类型】

文章:<metaproperty="og:type" content="article"/>
新闻:<meta property="og:type"content="news"/>
社区,如论坛、跟帖、问题社区:<metaproperty="og:type" content="bbs"/>
博客,用户专栏:<meta property="og:type"content="blog"/>
文学作品,如小说:<meta property="og:type"content="novel"/>
文档,如技术文章、翻译文档:<metaproperty="og:type" content="document"/>

同一个站点根据内容不同可以使用多个类型,比如知乎的用户答案页面可以使用content=bbs,用户专栏页面可以使用content=blog

【星火计划中原创规范关注的三点内容】

发布时间:指文章的第一发表时间,即系统将文章发布到全网可见状态的时间,而不是文章更新时间,此时间需要至少精确至分钟级

作者:指文章内容的实际创作者,可以使用真名或笔名,允许作者为多人,需要以空格间隔

来源(或出处):指发布原创内容的站点名称,同时站点名称需要链接到当前原创内容页URL

HEAD中加入META标签,以文章类型举例,格式如下:

<meta property="og:type" content="article" />
<meta property="article:published_time" content="YYYY-MM-DDTHH:MM:SS+时区"/>
<meta property="article:author" content="作者姓名"/>
<meta property="article:published_first" content="原发媒体名称, 原发网页URL" />?

以百度站长学院文章《站点切换https不会对流量产生负面影响为例,站长需要添加的代码如下(每一行下面的斜体字部分是解释):

<meta property="og:type" content="article"/>

-该字段是固定且必选的,表明当前页面类型符合OG协议中的文章作品类型

<meta property="article:published_time" content="2015-12-16T17:47:53+08:00" />

-最早发布时间,该字段必选,可以不在页面中做展示,内容格式要求符合ISO8601规范的UTC格式,标准格式应当是“YYYY-MM-DDTHH:MM:SS+时区”

<meta property="article:author" content="百度站长平台" />

-作者署名字段必选,需要在页面做展示

*如果该文章由多个作者共同完成,可再加一行作者署名代码:<meta property="article:author" content="百度站长学院"/>

<meta property="article:published_first" content="百度站长平台, http://zhanzhang.baidu.com/college/articleinfo?id=744" />?

-原发媒体名称和链接,用于区分原创和转载,该字段为可选。原创时,链接与自身相同;转载时,链接是另外不同的地址

二、原创推送

为保证原创内容能够第一时间被百度发现,网站需要将原创内容页面在发布后第一时间使用百度站长平台提供的链接提交-主动推送方式进行提交。

步骤引导:

  1. 已在百度站长平台http://zhanzhang.baidu.com 验证站点;
  2. 进入百度站长平台,登录账号;
  3. 点击 工具——链接提交——自动提交——主动推送;
  4. 看到如下的数据格式信息,以及推送方法,如下图:推送方法
    请注意提交地址是:http://data.zz.baidu.com/urls?site=www.xxx.com&token=xxx&type=original,其中sitetoken参数随站点和账号不同而不同,请关注实际页面内容;同时,如果是原创内容,一定要记得在后面加type字段标示,否则,不用带type参数。
  5. 在第二部分的推送示例中给出了curlphppostruby的实现方式,也可用其他语言实现。
  6. 推送的文件内容必须是每行一个url的格式。
  7. 推送返回码为200,说明文件接收成功,返回的各个字段的说明详见帮助文档,其他错误码为4xx,并且返回具体的错误信息。

【推送示例】

有本地文件urls.txt,内容如下:

www.example.com/1.html

www.example.com/2.html

www.example.com/3.html

www.example.com/4.html

推送方法1

curl推送示例:

将要提交的链接按照每行一条的格式写入一个文本文件中,命名此文件为urls.txt, 然后进入该文件所在目录,执行如下命令:

curl -H'Content-Type:text/plain' --data-binary @urls.txt"http://data.zz.baidu.com/urls?site=www.xxx.com&token=xxx&type=original"

使用php、python、java等可以参照这个过程推送结构化数据。

推送方法2

post推送示例:

POST/urls?site=www.sina.com.cn&token=ozrH9Eg8DmmDDyLd&type=originalHTTP/1.1
User-Agent:curl/7.12.1
Host:data.zz.baidu.com
Content-Type:text/plain
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html

推送方法3

php推送示例:

$urls = array(
??? 'http://www.example.com/1.html',
??? 'http://www.example.com/2.html',
);
$api = 'http://data.zz.baidu.com/urls?site=www.xxx.com&token=xxx&type=original';
$ch = curl_init();
$options =? array(
??? CURLOPT_URL => $api,
??? CURLOPT_POST => true,
??? CURLOPT_RETURNTRANSFER => true,
??? CURLOPT_POSTFIELDS =>implode("\n", $urls),
??? CURLOPT_HTTPHEADER =>array('Content-Type: text/plain'),
);
curl_setopt_array($ch,$options);
$result =curl_exec($ch);
echo $result;

推送方法4

ruby推送示例:

require 'net/http'
urls =['http://www.example.com/1.html', 'http://www.example.com/2.html']
uri = URI.parse('http://data.zz.baidu.com/urls?site=www.xxx.com&token=ozrH9Eg8DmmDDyLd&type=original')
req =Net::HTTP::Post.new(uri.request_uri)
req.body =urls.join("\n")
req.content_type ='text/plain'
res =Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body

百度星火计划2.0违规处理说明

内测站点请按照《百度星火计划2.0官方文档》和《百度星火计划原创规范v2.0》中的要求,原创内容页面在HEAD中加入META标签,并使用链接提交主动推送功能提交数据。对于违反官方文档和原则规范的内测站点:

以每天为标准,站点推送数据被系统识别为非原创1次或用户有效投诉1次,给予警告

发现违规内容2-5次,视情节取消站点星火计划收益1-3个月

发现违规内容5次以上,永久取消站点星火计划收益

推荐阅读

移动站点对百度友好全解

如何布局您的PC站和移动站,并表达两者之间内容的对应关系 目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。 跳转适配:该方法会利用单独的网址向每种设备......

常见的建站系统有哪些?

自己也没有非常专注建站系统这一块,所以只能在认知范围内写这篇文字,如果写得不好,大家可以给我留言讨论。好了,我们先来给建站系统分几类吧,CMS(内容填充系统)、论坛、博客、问答。就这几类,给大家推荐几款免费开源建站系统。 CMS dedecms de......

wordpress网站被镜像的危害及处理办法

前几天搜索网站品牌词“思享SEO”,发现网站被镜像了。就是指别人复制了一个和我一模一样的网站。今天我们就来谈一谈网站被镜像危害及解决办法。 网站被镜像的危害 镜像是怎么实现的没有去研究过。我的网站被镜像,URL都替换成掉了,且统计、推送JS文件也删除......