关键词影响力,是百度站长平台针对站点对于关键词数据分析的需求,推出的全新概念。涵盖该关键词下百度搜索可以为站点带来的全部收益指标,包括:排名、百 度搜索流量、展现量等。在H5版本的站长平台工具中首发的关键词影响力工具检测数值有:整体影响力、最大影响力、站点影响力。
网站验证
为什么要验证网站
站长平台推荐站长添加主站(您网站的链接也许会使用www?和非?www?两种网址,建议添加用户能够真实访问到的网址),添加并验证后,可证明您是该域名的拥有者,可以快捷批量添加子站点,查看所有子站数据,无需再一一验证您的子站点。
如何验证网站
首先如果您的网站已使用了百度统计,您可以使用统计账号登录平台,或者绑定站长平台与百度统计账号,站长平台支持您批量导入百度统计中的站点,您不需要再对网站进行验证。
百度站长平台为未使用百度统计的站点提供三种验证方式:文件验证、html标签验证、CNAME验证。
- 文件验证:您需要下载验证文件,将文件上传至您的服务器,放置于域名根目录下。
- html标签验证:将html标签添加至网站首页html代码的<head>标签与</head>标签之间。
- CNAME验证:您需要登录域名提供商或托管服务提供商的网站,添加新的DNS记录。
验证完成后,我们将会认为您是网站的拥有者。为使您的网站一直保持验证通过的状态,请保留验证的文件、html标签或CNAME记录,我们会去定期检查验证记录。
百度统计用户
如果您的网站已使用了百度统计,您可以使用统计账号登录平台,或者绑定站长平台与百度统计账号,站长平台支持您批量导入百度统计中的站点,您不需要再对网站进行验证。
网站验证常见错误及解决办法
常见错误 |
推荐解决办法 |
无法解析您网站的域名 | 请检查网站的DNS设置是否正确,并更新您网站自己的DNS |
无法连接到您网站的服务器 | 请检查网站服务器设置是否正确,是否可正常访问 |
获取验证文件或网页发生错误 | 请检查服务器设置,或者稍后重试 |
您网站跳转次数过多 | 请检查服务器设置,是否设置了多次跳转,如果设置了多次跳转,请取消跳转后重新尝试验证您的网站 |
服务器检查结果为空 | 请检查服务器是否对百度做了特殊的设置(例如:对百度进行了封禁),或者稍后重试 |
我们无法访问您的网站 | 请检查服务器设置是否正确,可能是您的网站是否对百度做了UA/IP封禁,如果做了封禁请解除封禁后重新尝试验证您的网站 |
找不到验证的html标签或者验证的html标签内容错误 | 请检查html标签内容是否正确 |
验证的文件内容错误 | 请检查html标签内容是否正确 |
没有找到对应的DNS CNAME记录 | 请检查您网站的DNS设置是否正确 |
您的网站跳转到另一个域名下 | 请检查服务器是否设置了跳转,如果设置了请去掉跳转后重新尝试验证您的网站 |
链接提交
如何选择链接提交方式
主动推送:最为快速的提交方式,建议您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。
sitemap:您可以定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查您提交的Sitemap,对其中的链接进行处理,但收录速度慢于主动推送。
手工提交:如果您不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度。
使用主动推送功能会达到怎样效果
及时发现:可以缩短百度爬虫发现您站点新链接的时间,使新发布的页面可以在第一时间被百度收录
保护原创:对于网站的最新原创内容,使用主动推送功能可以快速通知到百度,使内容可以在转发之前被百度发现
如何使用主动推送功能
1,需要网站制作数据推送接口,进入主动推送工具后,会看到接口调用地址的token,token是由16个英文数字组合的字符串
2,下面提供一些推送示例
1)curl推送示例
将要提交的url数据写入一个本地文件,比如urls.txt,每个url占一行,然后调用curl命令:
curl -H 'Content-Type:text/plain' --data-binary @urls.txt "http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"
使用php、python、java等可以参照这个过程推送结构化数据。
2)post推送示例
POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1 User-Agent: curl/7.12.1 Host: data.zz.baidu.com Content-Length: 83 http://www.example.com/1.html http://www.example.com/2.html3)
php推送示例
$urls = array( 'http://www.example.com/1.html', 'http://www.example.com/2.html', ); $api = 'http://data.zz.baidu.com/urls site=www.58.com&token=edk7ychrEZP9pDQD'; $ch = curl_init(); $options = ?array( CURLOPT_URL => $api, CURLOPT_POST => true, CURLOPT_RETURNTRANSFER => true, CURLOPT_POSTFIELDS => implode("\n", $urls), CURLOPT_HTTPHEADER => array('Content-Type: text/plain'), ); curl_setopt_array($ch, $options); $result = curl_exec($ch); echo $result;4)
ruby推送示例
require 'net/http' urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html'] uri = URI.parse('http://data.zz.baidu.com/urls site=www.xxx.com&token=eTk7ychrWZP1pDQD') req = Net::HTTP::Post.new(uri.request_uri) req.body = urls.join("\n") req.content_type = 'text/plain' res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) } puts res.body
如何查看推送反馈
您可以通过推送后返回的状态码和字段来判断数据是否推送成功。
1,状态码为200,表示推送成功,可能返回以下字段:
字段 | 是否必选 | 参数类型 | 说明 |
success | 是 | int | 成功推送的url条数 |
remain | 是 | int | 当天剩余的可推送url条数 |
not_same_site | 否 | array | 由于不是本站url而未处理的url列表 |
not_valid | 否 | array | 不合法的url列表 |
?成功返回示例:
{ "remain":4999998, "success":2, "not_same_site":[], "not_valid":[] }
2,状态码为4XX或500,表示推送失败,返回字段有:
字段 | 是否必选 | 类型 | 说明 |
error | 是 | int | 错误码,与状态码相同 |
message | 是 | string | 错误描述 |
常见的推送失败返回示例说明:
error | message | 含义 |
400 | site error | 站点未在站长平台验证 |
empty content | post内容为空 | |
only 2000 urls are allowed once | 每次最多只能提交2000条链接 | |
over quota | 超过每日配额了,超配额后再提交都是无效的 | |
401 | token is not valid | token错误 |
404 | not found | 接口地址填写错误 |
500 | internal error, please try later | 服务器偶然异常,通常重试就会成功 |
主动推送功能常见问题
1,?和原来的sitemap提交接口有什么区别?
答:状态反馈更及时了,原来提交后需要登录到站长平台查看提交是否成功。目前只要根据提交后返回的数据就可以判断了。
2,?已经存在的提交sitemap数据的程序代码需要做什么修改?
答:主要修改两点。第一点,提交的接口需要修改;第二点,需要处理下接口返回的信息,失败后需要根据错误进行相应处理,报错的链接是无法提交成功的
3,为什么提交成功后看不到数据变化?
答:我们反馈的是新提交链接的数量,如果您提交的链接在之前提交过(即重复提交)是不会被统计到的
4,在什么时机使用主动推送提交功能效果最明显?
答:页面链接产生或发布时立即提交,这样效果是最好的
5,每次提交一条数据和多条数据有什么区别?
答:没有区别
6,重复提交已经发布的链接会有什么问题?
答:会有两个影响。第一,将浪费您提交的配额,每个站点每天可提交的数量是有限制的,如果您都提交了旧链接,当有新链接时可能因为配额耗尽无法提交。第二,如果您经常重复提交旧链接,我们会下调您的配额,您可能会失去主动推送功能的权限
7,主动推送可以推多少条链接?
答:主动推送可提交的链接数量上限是根据您提交的新产生有价值链接数量而决定的,百度会根据您提交数量的情况不定期对上限额进行调整,提交的新产生有价值链接数量越多,可提交链接的上限越高。
什么是Sitemap
Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。
百度对已提交的数据,不保证一定会抓取及索引所有网址。但是,我们会使用Sitemap中的数据来了解网站的结构等信息,这样可以帮助我们改进抓取策略,并在日后能更好地对网站进行抓取。
此外,Sitemap 与搜索排名没有关系。
百度Sitemap支持哪些格式
百度Sitemap协议支持三种格式:文本格式、xml格式、Sitemap索引格式,可以根据自己情况来选择任意一种格式组织sitemap。具体格式说明及示例如下:
1.第一种格式样例:txt文本格式
在一个txt文本列明需要向百度提交的链接地址,将txt文本文件通过站长平台进行提交
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html
此文本文件需要遵循以下指南:
- 文本文件每行都必须有一个网址。网址中不能有换行。
- 不应包含网址列表以外的任何信息。
- 您必须书写完整的网址,包括 http。
- 每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
- 文本文件需使用 UTF-8 编码或GBK编码。
2.第二种格式样例:xml格式
单个xml数据格式如下:
<?xml version="1.0" encoding="utf-8"?> <!-- XML文件需以utf-8编码--> <urlset> <!--必填标签--> <url> <!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 --> <loc>http://www.yoursite.com/yoursite.html</loc> <!--必填,URL链接地址,长度不得超过256字节--> <lastmod>2009-12-14</lastmod> <!--可以不提交该标签,用来指定该链接的最后更新时间--> <changefreq>daily</changefreq> <!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 --> <priority>0.8</priority> <!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间--> </url> <url> <loc>http://www.yoursite.com/yoursite2.html</loc> <lastmod>2010-05-01</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset>
上述Sitemap向百度提交了一个url:http://www.yoursite.com/yoursite.html
若有多条url,按照上述格式重复<url></url>之间的片断,列明所有url地址,打包到一个xml文件,向站长平台进行提交。
3.第三种格式样例:Sitemap索引格式
如需提交大量sitemap文件,则可将其列在sitemap索引文件中,然后将该索引文件提交。您无需分别提交每个文件。
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<sitemapindex>
<!--必填,以 <sitemapindex> 开始标记作为开始,以 </sitemapindex> 结束标记作为结束-->
<sitemap>
<!--必填,以<sitemap>标签提交一个子sitemap文件-->
<loc>http://example.com/ext/xmlsitemap/add/201201/index_20120106.xml</loc>
<!--必填,识别sitemap的位置-->
<lastmod>2009-12-14</lastmod>
<!--选填,识别相对sitemap文件的修改时间-->
</sitemap>
<!--必填,标签闭合-->
</sitemapindex>
<!--必填,标签闭合-->
有多个Sitemap,按上述格式重复<sitemap></sitemap>之间的片断,列明所有Sitemap地址,向站长平台进行提交。
创建Sitemap时有哪些注意事项?
- 一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
- 一个站点支持提交的sitemap文件个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。
- 如果验证了网站的主域,那么Sitemap文件中可包含该网站主域下的所有网址。
如何提交Sitemap
第一步,将需提交的网页列表制作成一个Sitemap文件,文件格式请阅读百度Sitemap协议都支持哪些格式。
第二步,将Sitemap文件放置在网站目录下。比如您的网站为example.com,您已制作了一个sitemap_example.xml的Sitemap文件,将sitemap_example.xml上传至网站根目录即example.com/sitemap_example.xml
第三步,登录百度站长平台,确保提交Sitemap数据的网站已验证归属。
第四步,进入Sitemap工具,点击“添加新数据”,文件类型选择“URL列表”,填写抓取周期和Sitemap文件地址
最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的网站链接,可以选择文件后,点击更新所选,即对更新的网站链接进行了提交。
什么是移动Sitemap协议,如何提交移动Sitemap协议
百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了<mobile:mobile/>标签,它有四种取值:
<mobile:mobile/> :移动网页 <mobile:mobile type="mobile"/> :移动网页 <mobile:mobile type="pc,mobile"/>:自适应网页 <mobile:mobile type="htmladapt"/>:代码适配
无该上述标签表示为PC网页
下方样例相当于向百度移动搜索提交了一个移动网页:http://m.example.com/index.html,向PC搜索提交了一个传统网页:http://www.example.com/index.html,同时向移动搜索和PC搜索提交了一个自适配网页http://www.example.com/autoadapt.html:
<?xml version="1.0" encoding="UTF-8" ?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/"> <url> <loc>http://m.example.com/index.html</loc> <mobile:mobile type="mobile"/> <lastmod>2009-12-14</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/index.html</loc> <lastmod>2009-12-14</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/autoadapt.html</loc> <mobile:mobile type="pc,mobile"/> <lastmod>2009-12-14</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/htmladapt.html</loc> <mobile:mobile type="htmladapt"/> <lastmod>2009-12-14</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset>
按照移动Sitemap协议做好Sitemap后,在Sitemap工具点击添加新数据提交,与提交普通Sitemap方式一致。
我提交时填写的周期是什么含义?
百度Spider会参考设置周期抓取Sitemap文件,因此请根据Sitemap文件内容的更新(比如增加新url)来设置。请注意若url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范围内。Sitemap工具不能解决页面更新问题。
Sitemap提交后,多久能被百度处理?
Sitemap数据提交后,一般在1小时内百度会开始处理。在以后的调度抓取中,如果您的sitemap支持etag,我们会更频繁抓取sitemap文件,从而及时发现内容更新;否则抓取的周期会比较长。
提交的Sitemap都会被百度抓取并收录吗?
百度对已提交的数据,不保证一定会抓取及收录所有网址。是否收录与页面质量相关。
我可以压缩我的 Sitemap 吗?它们是否需要用 gzip 压缩?
可以。请使用?gzip?压缩?Sitemap。无论压缩与否,Sitemap?应该小于?10MB(10,485,759字节)。
XML格式的 Sitemap 中,“priority”提示会影响我的网页在搜索结果中的排名吗?
不会。Sitemap?中的“priority”提示只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。
网址在 Sitemap 中的位置是否会影响它的使用?
不会。网址在?Sitemap?中的位置并不会影响百度对它的识别或使用方式。
Sitemap中提交的url能否包含中文?
因为转码问题建议最好不要包含中文。
什么是自动推送工具?自动推送工具解决了什么问题?
自动推送JS代码是百度站长平台最新推出的轻量级链接提交组件,站长只需将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。
为了更快速的发现站点每天产生的最新内容,百度站长平台推出主动推送工具,产品上线后,部分站长反馈使用主动推送方式的技术门槛较高,于是我们顺势推出更低成本的JS自动推送工具。一步安装便可实现页面自动推送,低成本,高收益。
自动推送代码如何安装使用?
站长需要在每个页面的HTML代码中包含以下自动推送JS代码:
<script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https'){ bp.src = "https://zz.bdstatic.com/linksubmit/push.js'; } else{ bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script>
如果站长使用PHP语言开发的网站,可以按以下步骤操作:
- 创建名为“baidu_js_push.php”的文件,文件内容是上述自动推送JS代码;
- 在每个PHP模板页文件中的 <body> 标记后面添加一行代码:
<?php include_once("baidu_js_push.php") ?>
为什么自动推送可以更快的将页面推送给百度搜索?
基于自动推送的实现原理问题,当新页面每次被浏览时,页面URL会自动推送给百度,无需站长汇总URL再进行主动推送操作。
借助用户的浏览行为来触发推送动作,省去了站长人工操作的时间。
自动推送和主动推送有什么区别?
已经在使用链接提交里的主动推送(或sitemap)的网站还需要再部署自动推送代码吗?
二者之间互不冲突,互为补充。已经使用主动推送的站点,依然可以部署自动推送的JS代码,二者一起使用。
什么样的网站更适合使用自动推送?
自动推送由于实现便捷和后续维护成本低的特点,适合技术能力相对薄弱,无能力支持全天候实时主动推送程序的站长。
站长仅需一次部署自动推送JS代码的操作,就可以实现新页面被浏览即推送的效果,低成本实现链接自动提交。
同时,我们也支持主动推送和自动推送代码配合使用,二者互不影响。
结构化数据插件
结构化数据插件的作用
安装结构化数据插件,能又快又全的向百度提交论坛网页及内容。帮助百度Spider更好的了解您的网站,帮助收录,对于优质的数据资源,可应用结构化摘要样 式优化网站在百度搜索结果页的展现。根据社区论坛软件系统的不同,结构化插件分为:Discuz! 结构化数据插件和WordPress 结构化数据插件,二者的功能基本一致。
结构化数据插件使用指南
步骤一:下载适合版本的插件,解压文件至论坛根目录下:Discuz! 用户解压至source/plugin下;Wordpress用户解压至 wp-content/plugins下;
步骤二:以管理员账号登陆平台环境,在管理中心应用页面-安装新插件目录下,找到插件“baidusubmit”直接安装;(使用WordPress插件的站长,可跳过该步骤)
步骤三:在管理中心应用页面-插件列表目录下,启用“baidusubmit”插件;
步骤四:启用插件后,验证论坛网址,验证成功,插件安装完成。
DISCUZ!结构化数据提交插件安装帮助
步骤一:依据Discuz !平台环境类型,选择适合的版本下载插件。下载后,解压缩文件至Discuz平台目录/home/work/discuz/source/plugin
步骤二:用管理员账号登陆Discuz!平台环境,进入管理中心。如下图:步骤
三:进入管理中心“应用”页面,点击“安装新插件”选项,选择“baidusubmit”插件并安装。如下图:
友情提示:baidusubmit有两个版本,请依据Discuz!平台环境编码选择简体中文版或简体中文UTF-8版。如下图:
步骤四:进入左侧导航“插件”,选择“插件列表”选项,“启用”插件。如下图:
步骤六:验证成功,即开始向百度实时推送论坛数据,可随时查看近期数据推送状态。如下图:
其他:若不想使用插件,在插件列表中找到该插件,点击右侧的“关闭”按钮,若要卸载插件,点击右侧“卸载”按钮即可。
结构化数据插件常见问题
问:我通过结构化数据插件提交了很多数据,为什么很多都没有收录?
答:通过插件提交的数据,不保证所有都收录问:通过插件百度收录了我的数据,但有些url的展现依然是普通样式
答:收录的URL,不保证都有上图的结构化摘要展现问:结构化数据插件使用异常应该从哪里进行反馈?
答:使用过程中如有任何建议和意见,请通过站长反馈中心进行反馈。
死链提交
什么是死链&死链的标准
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
- 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
- 内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
目前内容死链召回存在召回率的风险,所以建议各位站长尽量使用协议死链,以保证平台工具更好地发挥其作用。
什么是死链规则?
死链规则是链接前缀,且匹配前缀的链接全部是死链。
目前支持两种死链规则:
- 目录规则:以“/”结尾的前缀
- CGI规则:以“?”结尾的前缀
为什么要使用死链工具
当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。
如何使用死链工具
第一步,处理网站已存在的死链,制作死链文件筛查网站内部存在的死链,并将这些死链页面设置成为404页面,即百度访问它们时返回404代码。将需提交的死链列表制作成一个死链文件,制作方法请参阅帮助文档(与sitemap格式及制作方法一致)
第二步,将死链文件放置在网站根目录下
比如您的网站为example.com,您已制作了一个silian_example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_example.xml
第三步,登录百度站长平台
第四步,提交网站并验证归属:具体验证网站归属方法可见帮助文档
第五步,提交死链数据
1.选中左侧“死链提交”
2.点击右侧“添加新数据”
3.提交死链文件:填写死链文件地址(如:www.example.com/silian_example.xml),选择更新时间,进行提交
4.管理已提交的死链列表
提交完之后,可在死链工具列表里看到提交的死链文件,如果死链文件里面有新的死链,可以选择文件后,点击更新所选,即对更新的死链链接进行了提交。整体流程如下图:
死链提交工具常见问题
问:百度不是会自动识别死链吗?这个工具有什么附加作用?
答:Baiduspider发现并处理死链是需要时间的,使用工具可以将最耗时的“发现”过程缩到最短。同时死链提交工具还可以与其它平台工具配合使用。
问:死链提交工具的生效周期是怎样的?
答:理论上三天可以生效,如果一周后死链仍在线上,可以进行再次提交。
问:百度死链提交支持这种形式吗?*.a.example.com
答:不支持,需要做成xml文件上传提交。
问:提交死链的文件和sitemap中的URL列表有冲突会不会有负面影响
答:如果该url为死链,不会通过sitemap收录该url;如果该url为活链,有可能影响死链文件的整体生效。
问:死链提交工具直接提交一整个目录吗?
答:不可以,目前没有此功能。
网站改版
使用网站改版工具前,站点应该做哪些工作
首先您要将改版前的旧链接全部通过301跳转到改版后的新链接,并且这种跳转必须是一一对应的关系,不能出现多条旧链接跳转到一条新链接,或者一条旧链接在不同时间内跳转到不同新链接的情况。
如果改版后产生新的站点,无论是www主站点还是二级域名,都需要将新站点在百度站长平台进行验证,以保证明您拥有该站点的管理权限。
网站改版工具如何使用
当 一个站点的域名或者目录发生变化时,例如a.com变为b.com,或者a.com/b变成a.com/c,如果想让百度快速收录变化之后的新链接、用以 替换之前的旧链接,那么您就需要使用百度站长平台的网站改版工具来提交您的改版关系,加速百度对已收录链接的新旧替换。
目前网站改工具支持以下方式的改 版:
1)换域名:仅域名发生了变换,如www.a.com变为www.b.com,而目录结构没有任何变化。可以在网站改版工具的“添加改版规则”——“站点改版”处,添加改版前后的两个域名,提交即可。注意此处提交的前后域名必须是不同的。
2)目录结构改版:不管域名是否改变,目录结构发生了变化,如www.a.com/a变为www.a.com/b,或又如www.a.com/c变为c.a.com。可以在网站改版工具的“添加改版规则”——“规则改版”处,提交新旧目录正则式,正则式的书写方式详见“正则格式说明”。
3)部分URL改版:当 您的网站点仅有部分URL发生了改版,正则式不能满足改版形式的表达,或前两种方式提交的规则校验失败,您还可以通过提交url对文件,将已经改版的旧链 接和对应的新链接提交给百度:文件格式为每行前后两个url,分别是改版前旧链接和跳转后新链接,中间用空格分隔,一个文件最多可以提交5万对url,您 可以提交多个文件。
另外您还可以在输入框中直接输入url对,格式与文件相同,但这处一次性仅限提交2000对url。在您提交改版规则后, 网站改版工具会提供状态说明:
1)规则校验中:百度站长平台会对管理员提交的改版规则进行校验,当认为实际情况与您提交的规则相符时,才会对规则进行生效处理,这个校验时间最长为2小时。
2)校验失败:当百度站长平台发现站点存在如下问题时,会判为校验失败,不会进行后续的生效处理:
a、提交重复规则:如果您当前提交的规则包含了正在生效的规则(状态为改版中或改版完成),则认定新提交的规则无效,您需要删除旧规则后再提交新规则,或者直接修改新规则。
b、未设置301跳转:对于存在改版关系的url对,我们要求通过301进行跳转。
c、旧链抓取失败:改版规则中旧链接无法正常访问。
d、新链抓取失败:改版规则中新链接、即跳转过去的链接无法正常访问。
e、跳转关系与规则不符:您提交的三种规则必须是真实的url对跳转关系,否则不予通过。
f、url与所提交站点不匹配:三种规则都会要求您填写新旧链接对应的站点信息,如果提交的url对与站点信息不匹配会报此错误信息。
g、正则格式不正确:请按照规定的格式进行填写,详见:“正则格式说明”。
h、url对文件格式不正确:要求的url对文件格式为:每行有两个url,用空格分隔,最多5万行。
i、多跳一:链接跳转关系中出现了多条链接跳转到一条链接的情况。这些错误信息会抽样展示在错误详情页面中
3)无需改版:网站改版工具只适用于改版前的旧链接已被百度收录,对于未收录的旧链接,我们无法进行处理。
4)改版进行中:您提交的改版规则通过校验后,百度站长平台会进行生效处理,这个过程最长为48小时。
5)改版完成:百度已经根据您提交的改版规则对新旧链接进行了替换。请 注意,改版完成后,百度会持续一段时间例行检查改版规则在您网站的生效状态,一旦连续发现改版规则出现校验失败原因中的问题,该规则的状态会由“改版完 成”调整为“校验失败”状态,此时需要您修正站内异常并重新提交改版规则。所以请尽可能长时间(至少三个月)保持新旧链接的跳转关系。
网站改版工具注意事项
1)改版规则中的新旧链接一定要使用301的方式进行跳转。
2)建议您尽量使用站点改版和规则改版,会有比较短的处理周期,也缩短后续您反馈问题的追查用时。
3)百度站长平台对改版规则的校验时间范围为0.5——2小时,改版生效时间范围为12——48小时,整体来看,您从提交改版规则到线上生效,最短12.5小时,最长50小时。
4)改版完成后不要立即清除跳转关系,保持跳转关系至少三个月,网站避免出现校验失败原因中的问题。
正则格式说明
以站点news.a.com改版到站点a.com/news为例:
改版前url地址为http://news.a.com/09/1001/07/5KH8DE1F000120GR.html,
其对应的改版后url地址为http://a.com/news/09/1001/07/5KH8DE1F000120GR.html步骤一:确定改版前链接中的可替换参数或者路径,得到其位置序号和类型。
改版前页url:
根据网站自身url的层次结构,其中09,1001,07和5KH8DE1F000120GR为动态可替换的路径。除5KH8DE1F000120GR为字母和数字混合外,其余均为纯数字。步骤二:根据可替换参数或路径的类型,得到改版后链接的表达形式。
使用正则匹配符号(\d+)或者(\w+)表示该路径或参数。(\d+)表示纯数字字符串,(\w+)表示字母数字下划线组成的字符串。
步骤三:根据改版后url,以及可替换参数在步骤一中的位置序号,依次用${1},${2},……表示替换掉改版前url中的可替换参数或路径,得到改版后链接pattern形式。
至此,便得到了改版前后的规则:
http://news.a.com /(\d+)/(\d+)/(\d+)/(\w+).html
http://a.com/news/${1}/${2}/${3}/${4}.html
百度索引量
什么是站点索引量
站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。
站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
目前site语法的数值是索引量估算值,比较不准。推荐站长们使用我们的新工具,同时我们也正在努力改进site语法。
如何使用百度索引量工具
如何定制百度索引量查看规则
可以通过“*”号自定义规则来查看某些特征集合的页面索引量数据。“*”号放在规则结尾可匹配到包含“/”在内的任意字符串,放在规则其他位置匹配不包含“/”的任意字符串,具体可参考下列示例:
- http://*.baidu.com/* 表示 http://baidu.com/ 站点及其子站的所有页面
- http://wenku.baidu.com/* 表示 http://wenku.baidu.com/ 站点下的所有(包含各级子目录)页面
- http://wenku.baidu.com/doc/* 表示 http://wenku.baidu.com/ 站点下 doc 目录下(包含各级子目录)的页面
- http://wenku.baidu.com/doc/*/ 表示 http://wenku.baidu.com/ 站点下 doc 目录下的页面,不含这些页面下的子目录页面
- http://wenku.baidu.com/doc*/* 表示 http://wenku.baidu.com/ 站点下以 doc 开头的目录下(包含各级子目录)的页面
百度索引量工具常见问题
问:工具里展示的数据是每天更新吗?怎么有时过了两天还没有更新?
答:百度索引数据最快每天更新一次,最迟一周更新一次,不同站点的更新日期可能不同问:索引量数据会保存多久?
答:您可以查询到近一年中每天的索引量数据,一年前的索引量数据为每月索引量数据问:我仅验证二级域名,是否可以查到主域的索引量数据?
答:不可以,必须验证主域名和顶级域名
关于索引量,你必须知道的事
网站被Baiduspider抓取收录后,经过一系列计划才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但我们发现,依然有很多站长对索引量存在误读。于是学院整理了一些常见问题,纠正一些错误的看法。
误:站长可以通过site查询站点收录量
正:索引量数据以百度站长平台索引量工具为准,SITE仅为估值误:索引量增加了,流量就会多;索引量减少,流量危险
正:索引量分多个层级,进入上层索引库才有更多与搜索用户见面的机会;进入下层库机会渺茫。所以,索引量总体的增加减少并不能说明流量会有什么变化误:站长应该每天查看索引量数据,发现不符合预期的变化就反馈
正:当流量发生巨大变化时,索引量数据可以作为排查原因的渠道之一,其余时间没有必要天天关注误:索引量只能增加不能减少
正:索引量上下浮动10%,甚至更多,都可能属于正常。只要流量变化不大就不用紧张。
流量与关键词
什么是关键词影响力? (暂时在移动端上线)
关键词影响力,是百度站长平台针对站点对于关键词数据分析的需求,推出的全新概念。站点关键词影响力:在具体关键词下,站点获得的收益对应的关键词影响力;最大关键词影响力:在具体关键词下,获得收益最高的站点影响力;整体关键词影响力:在具体关键词下,百度为全部站点带来的全部收益产生的影响力总值;关键词影响力算法复杂,涵盖该关键词下百度搜索可以为站点带来的全部收益指标,包括:排名、百度搜索流量、展现量等。
关键词影响力三个数值如何分析?
通过查看自身站点关键词影响力、最大关键词影响力和全盘关键词影响力,可以得到自身站点与行业标杆之间的差距,自身站点在具体关键词下的全盘占比,自身站点对具体关键词的优化上升空间及优化性价比。对站长SEO工作的收益和效果进行量化,对上升空间、行业差距,全盘情况及变化趋势等信息一目了然。
搜索关键词工具里出现的展现量、导流量、点击率、排名都是什么?
展现量:搜索用户在百度搜索引擎查询某关键词时,看到您网站的次数;
导流量:仅统计从百度搜索结果页点击进入您网站的次数;
点击率:导流量和展现量的比值,在一定程度上表征了网站的优化空间,点击率越小,网站的优化空间越大;
排名:在热门关键词和热门页面列表中给出的排名是平均排名,表征在相应时间段内,搜索用户在查询某关键词时,落地页在百度搜索结果页的平均排名,是统计数据。
热门关键词和热门页面分别指什么?
使用搜索关键词工具能给您带来什么?
抓取异常
什么是抓取异常
Baiduspider无法正常抓取,就是抓取异常。
抓取异常对网站有哪些影响
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
抓取异常的原因有哪些
一、网站异常
1、dns异常
当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。
2、连接超时
抓取请求连接超时,可能原因服务器过载,网络不稳定
3、抓取超时
抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足
4、连接错误
无法连接或者连接建立后对方服务器拒绝
二、链接异常
1、访问被拒绝
爬虫发起抓取,httpcode返回码是403
2、找不到页面
爬虫发起抓取,httpcode返回码是404
3、服务器错误
爬虫发起抓取,httpcode返回码是5XX
4、其他错误
爬虫发起抓取,httpcode返回码是4XX,不包括403和404
抓取诊断
什么是抓取诊断
抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。
抓取诊断工具能做什么
目前抓取诊断工具有如下作用:
- 诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。
- 诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。3、检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP。
抓取诊断工具常见错误类型解析
【url规范】
百度支持抓取的url长度不超过1024,如果您的链接长度过长,请在保证正常访问的情况下,适当精简,保证链接能被百度正常抓取和收录。
【重定向错误】
重定向是指百度spider访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。
【服务器连接错误】
这种情况是指,由于服务器响应过慢或您的网站屏蔽了百度spider,而导致百度无法访问您的网站。从而会导致百度无法正常收录或者更新您网站的内容。您可能看到以下具体错误:连接超时、连接失败、连接被拒、无响应、响应遭到截断、连接重置、标头遭到截断、超时。*如何处理服务器连接错误?
减 少动态网页请求的过多网页加载。如果网站为多个网址提供相同内容,则会被视为动态提供内容(例 如,www.example.com/shoes.php?color=red&size=7与www.example.com /shoes.php?size=7&color=red提供的内容相同)。动态网页的响应时间可能会很长,并会因此导致超时问题。或者,服务器 可能会返回超载状态,要求百度spider放慢抓取该网站的速度。一般来说,建议您尽量使用简短的参数并谨慎使用。确保您网站的托管服务器没有停止运行、超载或配置不当。如果连接问题、超时问题或响应问题仍然存在,请与您的网站托管服务提供商联系,并考虑增强您的网站处理流量的能力。检 查网站是否不小心屏蔽了百度spider的IP。您可能会由于系统级问题而阻止了百度访问,例如DNS配置问题、配置不当的防火墙或DoS防护系统、内容 管理系统配置问题。防御系统是保证托管服务正常运行的关键因素之一,并且这些系统通常会配置为自动阻止超量的服务器请求。由于百度spider发出的请求 通常要比普通用户多,因此可能会触发这些防御系统,导致它们阻止百度spider访问并抓取您的网站。要解决此类问题,您需要确定网站基础架构中的哪个部 分在阻止百度spider,然后取消该阻止。如果您没有控制防火墙的权限,就需要与您的托管服务提供商联系解决此问题。
【robots封禁问题】
在 抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未 使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文 件,避免造成您的网站在百度收录量和流量的下降。
【DNS问题】
DNS错误是指由于服务器停止运行或DNS到您网域的路由存在问题,导致百度spider无法与DNS服务器通信。*如何处理DNS错误?
确保百度能够抓取您的网站。对重要网页(例如您的首页)采用抓取诊断工具,如果它能顺利返回您的首页内容,那么您就可以认为百度能够正常访问您的网站。对于持续的或反复出现的DNS错误,请与您的DNS提供商联系。通常情况下,您的DNS提供商即为网站托管服务提供商。配置您的服务器,使其能够以404或500等HTTP错误代码对不存在的主机名作出响应。
【404错误】
一般情况下,当百度spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。
【访问遭拒绝】
一般情况下,百度会通过跟踪网页间的链接来查找内容。百度spider必须能够访问某个网页才能抓取该网页。如果您意外地看到了“访问遭拒”错误,可能是由于以下几种原因导致的:
- 百度spider无法访问您网站上的网址,因为您网站上的所有或部分内容要求用户登录后才能查看。
- 您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度spider访问您的网站。
【参数错误】
由于请求的语法格式有误,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解此请求,导致抓取失败。
【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
【读取http头或者页面内容时失败】
您的服务器收到了我们的完整请求,但是返回信息时不完整,http头或者响应正文发生了截断,导致网页内容不能正常读取。
外链工具
外链工具有何作用
- 结合谈外链判断对站点的问题外链进行处理,并对以后的链接建设起到积极的作用;
- 基于我们提供的外链数据,您可以进行多种维度的重组聚合,进而了解自身在外链建设上的情况以及与竞争对手的对比情况。
如何使用外链工具进行外链分析
此数据是未经百度搜索计算过滤的原始数据,仅供参考。登录您在百度站长平台注册的账号,进入站长工具à网站分析à外链分析,此时您可以:
第一、查看一段时间内您网站自身或某其他网站的外链趋势走向;
第二、进一步可查看您网站自身的具体外链数据。当您苦恼于曾经在外链建设过程中某些外链影响到您网站在百度系统中的评价时,那么拒绝外链功能可以使您不 再苦恼,同时支持单条拒绝和批量拒绝。其中,批量拒绝可分为四个级别进行批量操作:主域、站点、目录、页面,您可以按照需要进行操作,每次最高1000 条。结合谈外链判断,对指向您网站的问题外链进行拒绝操作,当问题外链提交至百度系统中并在一段时间的更新后,系统将根据情况自动调整对您网站的评价;
第三、如果您因疏忽而误将重要外链提交拒绝,那么也不要过于担心,可以通过撤销拒绝来恢复。当然,我们希望您不要过于粗心,系统难免出现问题将造成不必要的损失;
第四、您可以查看并下载任一网站的外链数据,以便于您进行自身网站外链分析以及竞争对手对比分析。不同的聚合重组,将使您得到多种重要的结论。举两个例子:
(1)自身某专题页排名不如竞争对手,当其他方面相差不大的情况下怀疑是外链因素造成。此时就可以将两个专题页的外链进行聚合对比分析,找出差距,兼顾质量和数量,着重分析外链产生的原因及过程。当然,分析的数据前提是根据谈外链判断将问题外链排除之后的数据,同时欢迎举报。
(2)按anchor进行聚类,可分析某页面传播过程中用户以及其他网站对该内容的定位,您在之后的外链建设传播过程进行适度调整。
总之,详细外链数据下载后根据自身需求可进行多方面的聚合分析,各位站长也可以在站长社区show出你的分析案例。
如何使用外链工具拒绝垃圾外链
第一,什么是拒绝外链?
外链是百度判断网页重要性数百个因素中很重要的一个方面。百度尽可能避免第三方网站上的行为对您网站产生负面影响。但某些情况下,一些垃圾、低质量导入 链接可能会影响百度对您网站的评价。例如,网络上大量的垃圾内容或质量很差的链接或者您购买了付费链接、采用了违反百度站长指南的链接手段。
首先,我们建议您从链接来源页面尽可能多的删除垃圾内容和链接。
其次,再没有任何其他措施可以删除剩余垃圾链接的情况下,就可以利用拒绝外链工具来通知百度在评价您网页之时忽略掉该链接。
第二,拒绝外链应该注意什么?
当您发现指向您网站的垃圾链接、虚假或低质量链接数量可观,同时确定这些链接会给您的网站造成负面影响,再使用该工具,否则请勿使用。当您确认拒绝后将无法撤销或删除,请谨慎使用。
如果您存在购买链接、群发外链、挂黑链等试图操作搜索引擎排序的作弊行为,我们不能保证短时间内去除掉该垃圾外链对您网站的负面影响,这需要数周乃至更长的时间来验证,请您耐心等待。
第三,如何使用拒绝外链工具?
请先选择您希望拒绝的外链类别,类别主要分为主域、站点、目录和页面。主域是指在域名服务商注册的域名,如:example.com;
站点是指网站的根 目录之前的url,网站地址,如:www.example.com/;
目录是指站点后以“/”结尾的,如:www.example.com/a/;
页面是 指一个具体页面的url,如:www.example.com/a/978.html。
以url:www.iqiyi.com/fun/20130308/4319a1351bb0167d.html为例,该url即为一个页面;
主域为iqiyi.com;站点为www.iqiyi.com;www.iqiyi.com/fun/为一个目录。
根据您选择的类别填写相对应的url提交拒绝信息即可。我们需要一定的时间来处理您提交的信息,拒绝外链生效的周期为数周,请您耐心等待。
外链工具常见问题
问:拒绝外链多长时间生效?
答:拒绝外链没有固定生效的周期,时间长达数周,请您耐心等待。问:拒绝后的外链是否可以恢复?
答:不可以。当您确认拒绝后将无法撤销或删除,请谨慎使用。
抓取频次
什么是抓取频次
什么情况下可以进行抓取频次上限调整
首先,Baiduspider会根据网站服务器压力自动进行抓取频次调整。其次,如果Baiduspider的抓取影响了网站稳定性,站长可以通过此工具调节Baiduspider每天抓取您网站的频次上限。
强调1:调整抓取频次上限不等于调高抓取频次。
强调2:建议您慎重调节抓取频次上限值,如果抓取频次过小则会影响Baiduspider对网站的收录。
robots
什么是robots文件
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。为了避免站长在设置robots文件时出现,百度站长平台特别推出了robots工具,帮助站长正确设置robots。
robots.txt文件的格式?
robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,?or?NL作为结束符),每一条记录的格式如下所示:
"<field>:<optional?space><value><optionalspace>"在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的?Disallow和Allow行的限制。
Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被?robot访问。
例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,
而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。
如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL?是允许robot访问的。
例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"*"?匹配0或多个任意字符
"$"?匹配行结束符。最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效
robots.txt文件用法举例
网站误封Robots该如何处理
robots文件是搜索生态中很重要的一个环节,同时也是一个很细节的环节。很多站长同学在网站运营过程中,很容易忽视robots文件的存在,进行错误覆盖或者全部封禁robots,造成不必要损失!那么如果误操作封禁了robots怎么办?今天我们请到了厦门258网站运营负责人——郑军伟,为我们分享网站robots误封禁后该如何操作?
【案例背景】
网站开发2.0版本,技术选择了在线开发,为了避免搜索引擎抓取开发版本,要求技术人员设置了Robots封禁处理。2.0版本开发周期1个月,1个月后网站版本迭代,直接覆盖了1.0版本,包括Robots封禁文件,2天后发现流量大幅下降,检查收录发现800万收录降至0条,关键词大量掉线。
【处理方式】
- 修改Robots封禁为允许,然后到百度站长后台检测并更新Robots。
- 在百度站长后台抓取检测,此时显示抓取失败,没关系,多点击抓取几次,触发蜘蛛抓取站点。
- 在百度站长后台抓取频次,申请抓取频次上调。
- 百度反馈中心,反馈是因为误操作导致了这种情况的发生。
- 百度站长后台链接提交处,设置数据主动推送(实时)。
- 更新sitemap网站地图,重新提交百度,每天手工提交一次。以上处理完,接下来就是等待了,万幸,2天的时间数据开始慢慢回升,到第3天基本回升到正常状态!
【案例总结】
本次事故绝对是运营生涯的一次败笔,总结反思一下,希望大家避免类似问题。
- 产品开发一定要避免在线开发,不能为了省事不搭建开发环境。
- 产品迭代要有流程记录,开发时做了那些设置处理,那些是不需要放出来的,那些是必须放出来的,要非常清楚。
- 要经常关注百度站长后台,关注相关数据变化,从数据变化中及时发现问题
安全检测
安检检测工具用语说明
- 挂马:指网站被黑客通过入侵手段拿到修改页面的权限,在网页的源代码中插入网页木马(恶意代码),用户在访问网页时就会运行网页木马受到漏洞攻击,从而自 动下载并执行病毒木马程序。网站被挂马会导致访问网站的用户电脑感染病毒木马,可能会遭受远程控制、泄露文档资料、账户密码等信息,危害极大。网站在被其 他人发现存在挂马后,搜索引擎、杀毒软件、浏览器等会进行拦截用户访问,直接导致网站不可访问,流失大量用户。
- 钓鱼:指页面仿冒某知名网站,让用户以为是正规网站,给用户造成损失。
- 欺诈:页面中存在欺骗用户、虚假的内容。
- 违规内容:内容存在违法信息,或者出于违法的灰色地带。
被黑修复建议
- 挂马:要完全解决网站被挂马的问题,不仅要查出被恶意代码感染的网页,还需要修复网站漏洞,阻止黑客再次挂马的可能性。通常情况下,网站被挂马说明黑客已 经入侵成功并且取得修改网页的权限,才可以在网页里插入恶意代码,因此首要解决被入侵的根源,通过使用Web漏洞扫描器或者分析网站访问历史日志,找到黑 客攻击的网站漏洞,对漏洞进行修补,并且及时查找、清除黑客留下的后门程序。
- 钓鱼、欺诈、违规内容:请确认您的网站是否存在钓鱼、欺诈、违规内容的情况,如果不存在可能是被黑,请排查自己的网站的内容质量。
如何防止网站被黑
为避免您的网站被黑客攻击,您需要在平时做大量的工作,例如
- 定期检查服务器日志,检查是否有可疑的针对非前台页面的访问。
- 经常检查网站文件是否有不正常的修改或者增加。
- 关注操作系统,以及所使用程序的官方网站。如果有安全更新补丁出现,应立即部署,不使用官方已不再积极维护的版本,如果条件允许,建议直接更新至最新版;关注建站程序方发布的的安全设置准则。
- 系统漏洞可能出自第三方应用程序,如果网站使用了这些应用程序,建议仔细评估其安全性。
- 修改开源程序关键文件的默认文件名,黑客通常通过自动扫描某些特定文件是否存在的方式来判断是否使用了某套程序。
- 修改默认管理员用户名,提高管理后台的密码强度,使用字母、数字以及特殊符号多种组合的密码,并严格控制不同级别用户的访问权限。
- 选择有实力保障的主机服务提供商。
- 关闭不必要的服务,以及端口。
- 关闭或者限制不必要的上传功能。
- 设置防火墙等安全措施。
- 若被黑问题反复出现,建议重新安装服务器操作系统,并重新上传备份的网站文件。
- 对于缺乏专业维护人员的网站,建议向专业安全公司咨询。
漏洞检测
漏洞检测工具用语说明
一,高危漏洞
高危漏洞包括SQL注入漏洞、XSS跨站脚本漏洞、页面存在源代码泄露、网站存在备份文件、网站存在包含SVN信息的文件、网站存在Resin任意文件读取漏洞。
SQL注入漏洞:
网站程序忽略了对输入字符串中包含的SQL语句的检查,使得包含的SQL语句被数据库误认为是合法的SQL指令而运行,导致数据库中各种敏感数据被盗取、更改或删除。
XSS跨站脚本漏洞:
网 站程序忽略了对输入字符串中特殊字符与字符串(如<>'"<script><iframe>onload)的检查, 使得攻击者可以欺骗用户访问包含恶意JavaScript代码的页面,使得恶意代码在用户浏览器中执行,从而导致目标用户权限被盗取或数据被篡改。
页面存在源代码泄露:
页面存在源代码泄露,可能导致网站服务的关键逻辑、配置的账号密码泄露,攻击者利用该信息可以更容易得到网站权限,导致网站被黑。
网站存在备份文件:
网站存在备份文件,例如数据库备份文件、网站源码备份文件等,攻击者利用该信息可以更容易得到网站权限,导致网站被黑。
网站存在包含SVN信息的文件:
网站存在包含SVN信息的文件,这是网站源码的版本控制器私有文件,里面包含SVN服务的地址、提交的私有文件名、SVN用户名等信息,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在Resin任意文件读取漏洞:
安装某些版本Resin服务器的网站存在可读取任意文件的漏洞,攻击者利用该漏洞可以读取网站服务器的任意文件内容,导致网站被黑。
二,中危漏洞
中危漏洞包括网站存在目录浏览漏洞、网站存在PHPINFO文件、网站存在服务器环境探针文件、网站存在日志信息文件、网站存在JSP示例文件。
网站存在目录浏览漏洞:
网站存在配置缺陷,存在目录可浏览漏洞,这会导致网站很多隐私文件与目录泄露,比如数据库备份文件、配置文件等,攻击者利用该信息可以更容易得到网站权限,导致网站被黑。
网站存在PHPINFO文件:
网站存在PHPINFO文件,这个是PHP特有的信息文件,会导致网站的大量架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在服务器环境探针文件:
网站存在服务器环境探针文件,该文件会导致网站的大量架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在日志信息文件:
网站存在日志信息文件,该文件包含的错误信息会导致网站的一些架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在JSP示例文件:
网站存在JSP示例文件,该文件的弱口令会导致网站的大量架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
三、低危漏洞
低危漏洞包括页面上存在网站程序的调试信息、网站存在后台登录地址、网站存在服务端统计信息文件、网站存在敏感目录。
页面上存在网站程序的调试信息:
页面上存在数据库信息,例如数据库名、数据库管理员名,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在后台登录地址:
网站存在后台登录地址,攻击者经常使用这个地址进行网站的后台登陆,比如弱密码、表单绕过、暴力破解等,从而得到网站的权限。
网站存在服务端统计信息文件:
网站存在服务端统计信息文件,该文件会导致网站的一些架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在敏感目录:
网站存在敏感目录,例如 /upload ?/database ?/bak,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
漏洞的危害有哪些
- 数据库信息泄漏:数据库中存储的用户隐私信息泄露。
- 网页篡改:通过操作数据库对特定网页进行篡改。
- 网站被挂马,传播恶意软件:修改数据库一些字段的值,嵌入网马链接,进行挂马攻击。
- 数据库被恶意操作:数据库服务器被攻击,数据库的系统管理员帐户被窜改。
- 服务器被远程控制,被安装后门:经由数据库服务器提供的操作系统支持,让黑客得以修改或控制操作系统。
- 破坏硬盘数据,瘫痪全系统。
XSS跨站脚本漏洞的危害包括但不限于:
- 钓鱼欺骗:最典型的就是利用目标网站的反射型跨站脚本漏洞将目标网站重定向到钓鱼网站,或者注入钓鱼JavaScript以监控目标网站的表单输入,甚至发起基于DHTML更高级的钓鱼攻击方式。
- 网站挂马:跨站后利用IFrame嵌入隐藏的恶意网站或者将被攻击者定向到恶意网站上,或者弹出恶意网站窗口等方式都可以进行挂马攻击。
- 身份盗用:Cookie是用户对于特定网站的身份验证标志,XSS可以盗取用户的Cookie,从而利用该Cookie获取用户对该网站的操作权限。如果一个网站管理员用户Cookie被窃取,将会对网站引发巨大的危害。
- 盗取网站用户信息:当能够窃取到用户Cookie从而获取到用户身份时,攻击者可以获取到用户对网站的操作权限,从而查看用户隐私信息。
- 垃圾信息发送:比如在SNS社区中,利用XSS漏洞借用被攻击者的身份发送大量的垃圾信息给特定的目标群体。
- 劫持用户Web行为:一些高级的XSS攻击甚至可以劫持用户的Web行为,监视用户的浏览历史,发送与接收的数据等等。
- XSS蠕虫:XSS 蠕虫可以用来打广告、刷流量、挂马、恶作剧、破坏网上数据、实施DDoS攻击等。
信息泄露漏洞的危害
CGI漏洞大多分为以下几种类型:信息泄露、命令执行和溢出,因此危害的严重程度不一。信息泄露会暴露服务器的敏感信息,使攻击者能够通过泄露的信息进 行进一步入侵;命令执行会对服务器的安全造成直接的影响,如执行任意系统命令;溢出往往能够让攻击者直接控制目标服务器,危害重大。
内容泄露漏洞:会被攻击者利用导致其它类型的攻击,危害包括但不局限于:
- 内网ip泄露:可能会使攻击者渗透进入内网产生更大危害。
- 数据库信息泄露:让攻击者知道数据库类型,会降低攻击难度。
- 网站调试信息泄露:可能让攻击者知道网站使用的编程语言,使用的框架等,降低攻击难度。
- 网站目录结构泄露:攻击者容易发现敏感文件。
- 绝对路径泄露:某些攻击手段依赖网站的绝对路径,比如用SQL注入写webshell。
- 电子邮件泄露:邮件泄露可能会被垃圾邮件骚扰,还可能被攻击者利用社会工程学手段获取更多信息,扩大危害。
文件泄露漏洞:可能会导致重要信息的泄露,进而扩大安全威胁,这些危害包括但不局限于:
- 帐号密码泄漏:可能导致攻击者直接操作网站后台或数据库,进行一些可能有危害的操作。
- 源码泄露:可能会让攻击者从源码中分析出更多其它的漏洞,如SQL注入,文件上传,代码执行等。
- 系统用户泄露:可能会方便暴力破解系统密码。
漏洞解决方案
- 解决SQL注入漏洞的关键是对所有来自用户输入的数据进行严格检查、对数据库配置使用最小权限原则
- 所有的查询语句都使用数据库提供的参数化查询接口,参数化的语句使用参数而不是将用户输入变量嵌入到SQL语句中。
- 对进入数据库的特殊字符('"\<>&*;等)进行转义处理,或编码转换。
- 确认每种数据的类型,比如数字型的数据就必须是数字,数据库中的存储字段必须对应为int型。
- 数据长度应该严格规定,能在一定程度上防止比较长的SQL注入语句无法正确执行。
- 网站每个数据层的编码统一,建议全部使用UTF-8编码,上下层编码不一致有可能导致一些过滤模型被绕过。
- 严格限制网站用户的数据库的操作权限,给此用户提供仅仅能够满足其工作的权限,从而最大限度的减少注入攻击对数据库的危害。
- 避免网站显示SQL错误信息,比如类型错误、字段不匹配等,防止攻击者利用这些错误信息进行一些判断。
- 在网站发布之前建议使用一些专业的SQL注入检测工具进行检测,及时修补这些SQL注入漏洞。
- 假定所有输入都是可疑的,必须对所有输入中的script、iframe等字样进行严格的检查。这里的输入不仅仅是用户可以直接交互的输入接口,也包括HTTP请求中的Cookie中的变量,HTTP请求头部中的变量等。
- 不要仅仅验证数据的类型,还要验证其格式、长度、范围和内容。
- 不要仅仅在客户端做数据的验证与过滤,关键的过滤步骤在服务端进行。
- 对输出的数据也要检查,数据库里的值有可能会在一个大网站的多处都有输出,即使在输入做了编码等操作,在各处的输出点时也要进行安全检查。
- 在网站发布之前建议测试所有已知的威胁。
页面存在源代码泄露解决方案:
- 配置好服务端语言解析,防止解析失败而导致源码泄露;
- 关闭网站错误调试机制,防止因为报错而导致源码泄露。
网站存在备份文件解决方案:
删除检测出的备份文件,或者将这类文件从网站目录下移走。
网站存在包含SVN信息的文件解决方案:
删除网站目录下的SVN信息,不要使用SVN目录作为网站的目录。
网站存在Resin任意文件读取漏洞解决方案:
删除resin_doc相关目录与文件。
网站存在目录浏览漏洞:
关闭Web容器(如IIS/Apache等)的目录浏览功能,比如:
- IIS中关闭目录浏览功能:在IIS的网站属性中,勾去“目录浏览”选项,重启IIS;
- Apache中关闭目录浏览功能:打开Apache配置文件httpd.conf,查找 “Options Indexes FollowSymLinks”,修改为“ Options -Indexes”(减号表示取消),保存退出,重启Apache。
网站存在PHPINFO文件解决方案:
删除检测出的PHPINFO文件。
网站存在服务器环境探针文件解决方案:
删除检测出的探针文件,比如:iprober.php、phpcheck.php、jspcheck.jsp、DotNetInfo.aspx、aspcheck.asp等。
网站存在日志信息文件解决方案:
删除检测出的日志信息文件。
网站存在JSP示例文件解决方案:
删除JSP示例文件。
页面上存在数据库信息解决方案:
关闭数据库的错误调试机制,防止因为SQL语句错误导致数据库报错信息显示到页面上。
页面上存在网站程序的调试信息解决方案:
关闭网站程序的调试机制,这个机制经常被用于网站的测试调试,该机制能显示出很详细的网站报错信息。
网站存在后台登录地址解决方案:
- 将后台登录地址隐藏,改个不容易猜到的路径;
- 配置好后台登录地址的访问权限,比如只允许某个IP或IP段的用户访问。
网站存在服务端统计信息文件解决方案:
删除检测出的服务端统计信息文件。
网站存在敏感目录解决方案:
这些目录经常用于存放敏感的文件,可以考虑从网站目录中分离出,或改个不易猜测到的路径,并配置好访问权限。
反馈中心
什么是站长反馈中心
如何使用站长反馈中心
当站点遇到问题时,首先请通过站长工具或学院文章,对网站进行自查。
若自查后无法解决,请在站长反馈中心选择遇到问题的站点,之后选择产品分类,即网站是在网页搜索、移动搜索、新闻搜索或站长工具使用中遇到问题。然后选择对应的问题分类,最后根据页面提示,进行详细描述。您对问题的描述越清晰,越有助于我们快速地定位和解决问题。
建议同样的问题不要重复投诉。
站长关心的热门问题
logo提交后为何没有展现?
答:您好,logo展现目前只针对优质站点进行审核和展现,如果您站为优质站点,logo提交后通常会在1到2周内进行审核和展现,具体情况请参考百度站长社区的详情帖。
新建的网站未收录怎么办?
答:页面是否被收录,与页面是否具有价值有关,原则上内容越贴近用户的搜索需要,网页就会越快地被搜索引擎收录。但通常情况下页面从产生到收录需要一定周期,时间从几分钟到几天不等,这取决于网页的搜索价值和重要性的高低。长时间不收录的原因可能包括:
- 页面被惩罚整站或目录没有进行收录,
- 网页没有被搜索引擎发现,因为网页没有放置外部链接,本身是个孤岛页面。
针对第一种情况,首先请查看网站是否出现过无法打开或连通异常的状况,可以接助站长平台抓取诊断工具来进行判断。同时查看网站是否有过不良信息的收录,如果网站已经恢复正常并可以正常连通和抓取,可以提交到站长反馈中心进行反馈。针对网站始终没有被百度抓取的情况,建议您使用站长平台的链接提交工具进行提交。
网站在搜索url或使用domain语法搜索时,出现了不相关的结果的问题?
答:通常情况下,搜索url是为了确定该页面是否已被搜索引擎收录,除此以外的其他自然结果,均为以该url作为关键词,在网页库中进行搜索而得出的自 然结果。这些自然结果的内容如何,与网页所处的网站是否存在问题并无关联。如果希望查询网站的外链状态,请使用站长平台链接分析工具寻求支持。
站点子链
站点子链
使用说明
闭站保护
什么是闭站保护
由 网站自身原因(改版、暂停服务等)、客观原因(服务器故障、政策影响等)造成的网站较长一段时间都无法正常访问,百度搜索引擎会认为该站属于关闭状态。站 长可以通过闭站保护工具进行提交申请,申请通过后,百度搜索引擎会暂时保留索引、暂停抓取站点、暂停其在搜索结果中的展现。待网站恢复正常后,站长可通过 闭站保护工具申请恢复,申请审核通过后,百度搜索引擎会恢复对站点的抓取和展现,站点的评价得分不会受到影响。
闭站保护注意事项
- 站长关闭站点后应立即申请闭站保护,若申请不及时,站点很可能被判为死链,影响后续的收录和展现。
- 支持两种闭站方法,全站HTTP状态码设置为404或者切断电源关闭服务器,不支持使用DNS方法闭站,noip不会通过闭站申请校验。
- 申请闭站保护、申请取消闭站保护,若通过审核都将在3小时以内生效。
- 闭站保护期最长为180天,超过180天将自动取消闭站保护。
- 闭站保护不能保持搜索结果排名
- 使用闭站工具只能保留您网站的索引量,但不保证网站的排名不变
- 闭站保护期间,如果首页可访问,百度会展现首页,即首页被豁免屏蔽
链接分析
什么是内链死链、链出死链、链入死链
假设您的网站是www.abc.com,第三方网站是www.example.com。
内链死链:在您网站上发现同一个域名内的死链,即:如果在http://www.abc.com/1.html上发现了一条死链http://www.abc.com/2.html,那么我们称http://www.abc.com/2.html为内链死链;
链出死链:在您网站上发现的链接到其他网站的死链,即:如果在http://www.abc.com/1.html上发现了一条死链http://www.example.com/1.html,那么我们称http://www.example.com/1.html为外链死链;
链入死链:在其他网站上发现的链接到您网站的死链,即:如果在http://www.example.com/2.html上发现了死链http://www.abc.com/2.html,那么我们称http://www.abc.com/2.html为链入死链。
死链示例展示中,死链链接、死链前链、锚文本、发现时间分别代表什么含义
死链链接:Baiduspider在尝试抓取该网页时,该网页返回了404代码;?目前死链链接只针对协议死链,后续会陆续增加跳转死链和内容死链。
死链前链:从该网页经过一次点击即可到达当前死链链接,称该网页为当前死链链接的前链,即死链前链。
锚文本:在死链前链这个网页上发现的对应该死链链接的文本信息。
发现时间:Baiduspider最近一次抓取该死链链接的时间。
外链工具有何作用
- 结合《谈外链判断》对站点的问题外链进行处理,并对以后的链接建设起到积极的作用;
- 基于我们提供的外链数据,您可以进行多种维度的重组聚合,进而了解自身在外链建设上的情况。如何使用外链工具进行外链分析此数据是未经百度搜索计算过滤的原始数据,仅供参考。登录您在百度站长平台注册的账号,进入站长工具->优化与维护->链接分析,此时您可以:
第一、查看一段时间内您网站自身的外链趋势走向;
第二、进一步可查看链接到您网站的外链所在的主域以及外链数量。第三、您可以查看并下载您网站的具体外链数据,以便于您进行自身网站外链分析。不同的聚合重组,将使您得到多种重要的结论。举两个例子:
(1)自身某专题页排名不高,当其他方面找不到原因的时候怀疑是外链因素造成。此时就可以将专题页的外链进行聚合分析,兼顾质量和数量,着重分析外链产生的原因及过程。当然,分析的数据前提是根据谈外链判断将问题外链排除之后的数据,同时欢迎举报。
(2)按anchor进行聚类,可分析某页面传播过程中用户以及其他网站对该内容的定位,您在之后的外链建设传播过程进行适度调整。总之,详细外链数据下载后根据自身需求可进行多方面的聚合分析。
外链工具常见问题
问:外链多长时间更新?
答:目前预计一周更新一次,请您耐心等待。
移动适配
什么是移动适配,移动适配工具的作用
提 升搜索用户在百度移动搜索的检索体验,会给对应PC页面的手机页面在搜索结果处有更多的展现机会,需要站点向百度提交主体内容相同的PC页面与移动页面的 对应关系,即为移动适配。为此,百度移动搜索提供“移动适配”服务,如果您同时拥有PC站和手机站,且二者能够在内容上对应,即主体内容完全相同,您可以 通过移动适配工具进行对应关系提交。站长通过移动适配工具提交pattern级别或者url级别的PC页与手 机页对应关系,若可以成功通过校验,将有助于百度移动搜索将移动用户直接送入对应的手机页结果。积极参与“移动适配”,将有助于您的手机站在百度移动搜索 获得更多流量,同时以更佳的浏览效果赢取用户口碑。
移动适配工具如何使用
当您同时拥有移动站点和PC站点、且移动页面和PC页面的主体内容完全相同,就可以在通过百度站长平台提交正确的适配关系,获取更多移动流量。
第一步,注册并登录百度站长平台
第二步,提交PC网站并验证站点与ID的归属关系,具体验证网站归属方法可见帮助文档
第三步,站点验证后,进入“工具”――“移动专区”――“移动适配工具”,选择具体需要进行移动适配的PC站,然后“添加适配关系”
第四步,根据自己提交的适配数据特点,选择适合您的提交方式:目前移动适配工具支持规则适配提交URL适配提交,无论您使用哪种方式都需要先指定PC与移动站点,此举可以令平台更加快速地检验您提交的数据、给出反馈,顺利生效。同时您在之后步骤中提交的适配数据中必须包含指定的站点,否则会导致校验失败。
1)规则适配:当pc地址和移动地址存在规则(pattern)的匹配关系时(如PC页面www.xxx.com/picture/12345.html,移动页面m.xxx.com/picture/12345.html),可以使用规则适配,添加pc和移动的正则表达式,正则的书写方式详见《正则格式说明》。我们强烈建议您使用规则适配,一次提交成功生效后,对于新增同规则的URL可持续生效,不必再进行多次提交。同时该方式处理周期相对URL适配更短,且易于维护和问题排查,是百度推荐使用的提交方式。
2)URL 适配:当规则适配不能满足适配关系的表达时,您可以通过“URL对文件上传”功能,将主体内容相同的pc链接和移动链接提交给百度:文件格式为每行前后两 个url,分别是pc链接和移动链接,中间用空格分隔,一个文件最多可以提交5万对url,您可以提交多个文件。另外您还可以选择“URL对批量提交”, 在输入框中直接输入url对,格式与文件相同,但此处一次性仅限提交2000对url。
第五步,提交适配数据后,关注移动适配工具会提供状态说明,若未适配成功,可根据说明文字和示例进行相应的调整后更新提交适配数据。移动适配目录如何使用工具提交适配关系PC 站点下开辟某个目录存放移动适配页面、作为移动适配“站”时,依然会有提交移动适配数据的需求,如:http://www.a.com/a.html 适配到http://www.a.com/m/a.html。虽然从长远角度看,这种行为对搜索引擎极不友好,百度(包括GOOGLE)一直不赞成不鼓励 这种建方式。但为了满足该需求,百度站长平台移动适配工具依然提供满足此需求的功能。您可以先在下拉菜单中选择准确的站点域名,再点击“+添加适配关系”。也可以在默认的www主域下“+添加适配关系”。进入“添加新数据”界面后,“指定PC-移动站点”处填写的移动站点名,要与PC站点名一致,然后在提交规则处填写相应的正则信息,然后增加校验用url对即可。提交数据时示例图如下:
移动适配状态说明
校验中:
百度站长平台会对管理员提交的移动适配数据进行校验,当认为实际情况与您提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天。目前“校验中”的适配数据不能删除。
校验失败:
当百度站长平台发现站点存在如下问题时,会判为校验失败,不会进行后续的生效处理:
a、正则格式错误:请按照规定的格式进行填写,详见《正则格式说明》。
b、PC-移动页面不对应: PC链接和移动链接的主体内容不相同,达不到对应关系
c、数据内容和适配类型不符:提交的适配关系内容有错误,管理员错误地通过规则适配功能提交了url对,或者相反的情况
d、数据内容与指定站点不一致:提交的适配关系与提交的指定站点不对应
e、未达到校验标准。提交面的“?”号获取的 适配数据中,PC页面或移动页面没有收录。移动适配工具对适配数据进行正确性校验时依赖PC网页库和移动网页库中已收录的页面,如果校验时取到的PC页或 移动页百度还未收录,将无法对适配数据进行检验。对于未收录的页面将推送给spider进行抓取,若收录后可进行下一次正确性检验,管理员不必再另行提 交。*页面被收录不等于被建索引,收录了的页面有可能在索引量工具里查不到。以上错误信息会抽样展示在错误详情页面中,您可以通过点击状态说明获取
校验成功:
您提交的适配数据通过校验后,百度站长平台会进行生效处理,这个过程最长为10天。
校验部分成功:
您提交的适配数据中包含部分校验失败内容,失败部分可以参考校验失败的说明,其他成功部分会上线生效。
未达到校验标准:
您提交的规则所涉及的页面,绝大多数未收录(区别于索引)或展现过少,平台工具为了高效处理海量规则,会将未达到校验标准的规则做延后处理,站点方面不必再做额外工作。
适配成功:
百度已经根据您提交的适配数据对移动链接进行了替换。
适配部分成功:
对应校验部分成功而言,那部分通过校验的数据已完成移动适配。
内容重复:
此文件提交的数据被后提交的文件包含覆盖,工具后续不会再对该文件进行处理,也不会反馈处理状态
移动关系发生变化如何修改
站长通过移动适配工具提供适配数据中若发现数据有误,或想更新旧的、已生效的适配关系,可以重新提交新的适配数据予以覆盖。具体如下:
- 目前“校验中”的数据不支持直接删除,若此时需要修改适配关系数据,不需要等等该数据更新状态,可以直接提交新的适配关系予以覆盖。
- 如适配数据发生校验失败,无需将其删除,直接提交新的适配关系覆盖即可。
- 若需要修改已适配成功的关系数据,无需将原适配数据删除,直接提交新的适配关系覆盖即可,待新数据适配成功后线上可生效。
移动适配工具注意事项
- 只要PC站点与移动站点的主干一致,即可参与移动适配。举例说明:PC站点ww.abc.com.cn ? ?移动站点m.abc.net ?属于主干一致。当然我们更建议您使用主域相同的PC站点和移动站点
- 建议您尽量使用规则适配进行对应关系提交,一次提交可对于新增同规则的URL持续生效,无需多次反复提交,且处理周期相对URL提交更短,更易于维护和问题排查,是百度推荐使用的提交方式
- 使用正则格式进行规则适配,尽量使用最小的粒度来表示,这样更容易校验通过,比如:a).确定是纯数字:([0-9]+) 或(\d+)b).确定是纯字母:([a-zA-Z]+), 包括字母大小写的情况c).确定是数字和字母混合串:方法一、((?:[a-zA-Z]+[0-9]+|[0-9]+[a-zA-Z]+)[a-zA-Z0-9]+)方法二、([a-zA-Z0-9]+)说明:两种混合串的区别:较长的一种为严格的数字和字母混排形式,且数字?和字母交替至少出现1次;
较短的一种可支持纯数字,纯字母和数字字母混排d).确定有中文字符:((?:%[a-zA-Z-0-9]{2,})+)e).确定有参数值:([^&]+)f).确定有'-'和'_'连接字符串的替换规则:将连接的各个部分分别用对应的规则替换 - 百度站长平台对适配数据的校验时间大约为10天,生效时间大约为1-2天。
- 适配成功后要继续保持正确的适配关系,我们会重复验证适配关系的有效性。
如何提升移动适配效果
首先,对已有的对应关系持续进行适配,同时不断建设新的对应关系,增加适配覆盖的范围。其次,要确保已经提交的对应关系准确。以下是常见的对应不准确错误,请网站进行自查,并及时修改。
1、手机页不可用,比如死链。
2、robots封禁。放开对Baiduspider的robots封禁,以便Baiduspider获取您PC站与手机站之间的对应关系。
3、手机页使用了ajax等异步加载的方法加载内容主体。
4、格式错误。正则格式错误,文件格式错误等。
5、对应关系错误
- 当PC页为内容页时,应该适配到对应的手机页内容页,而实际却适配到手机页的首页/列表页例如PC页为http://www.aaa.com/Book/2083259.aspx,适配后的手机页为http://m.aaa.con/?from=web
- 手机页本身无主体内容或主体内容过少。
- 手机页需登录才能浏览主体内容。
- PC页内容与手机页内容不存在一一对应关系。
正确的对应关系示例:
PC页http://www.58.com/mmmshandongrencai/
手机页http://m.58.com/w/mmmshandongrencai/
正则格式说明
以站点news.a.com适配到站点m.a.com为例:适配PC链接地址为:http://news.a.com/09/1001/07/5KH8DE1F000120GR.html,
适配移动链接地址为:http://m.a.com/news/09/1001/07/5KH8DE1F000120GR.html
步骤一:确定适配链接中的可替换参数或者路径,得到其位置序号和类型。适配PC链接:根据网站自身url的层次结构,其中09,1001,07和5KH8DE1F000120GR为动态可替换的路径。除5KH8DE1F000120GR为字母和数字混合外,其余均为纯数字。
步骤二:根据可替换参数或路径的类型,得到链接的表达形式。使用正则匹配符号(\d+)或者(\w+)表示该路径或参数。(\d+)表示纯数字字符串,(\w+)表示字母数字下划线组成的字符串。
步骤三:根据移动链接,以及可替换参数在步骤一中的位置序号,依次用${1},${2},……表示替换掉适配PC链接中的可替换参数或路径,得到适配后的移动链接的pattern形式。
至此,便得到了适配的规则:http://news.a.com/(\d+)/(\d+)/(\d+)/(\w+).htmlhttp://m.a.com/news/${1}/${2}/${3}/${4}.html
正则格式示例:
1、纯数字替换生成pattern例子:
eg1:
url对应关系:http://www.abc.com/26299483.html->? http://m.abc.com/26299483.html? ? ? ?
pattern: http://www.abc.com/([0-9]+).html->? http://m.abc.com/${1}.html
eg2:
url对应关系:http://www.abc.com/t26299483.html->? http://m.abc.com/26299483.html
pattern:http://www.abc.com/t([0-9]+).html->? http://m.abc.com/${1}.html?
2、纯字母替换生成pattern例子:
eg:
url对应关系:http://www.abc.com/fawliute/?->?http://m.abc.com/fawliute/
pattern:http://www.abc.com/([a-zA-Z]+)/?-> ?http://m.abc.com/${1}/?
3、字母和数字混合的字符串替换生成pattern的例子:
eg1:
url对应关系:http://www.abc.com/a1cc1n2q5y3/?->??http://m.abc.com/a1cc1n2q5y3/
pattern:http://www.abc.com/((?:[a-zA-Z]+[0-9]+|[0-9]+[a-zA-Z]+)[a-zA-Z0-9]+)/???->?http://m.abc.com/${1}/?
注意:字母和数字混合字符串,字母和数字必须交替出现至少1次有效例子:a13b,23a9,da3bc99,42a1c
eg2:
url对应关系:http://news.abc.com/09/1001/07/5KH8DE1F000120GR.html
? ? ? ????->?http://m.abc.com/news/09/1001/07/5KH8DE1F000120GR.html
pattern:http://news.abc.com/([0-9]+)/([0-9]+)/([0-9]+)/([ a-zA-Z0-9]+).html
? ? ? ????->?http://m.abc.com/news/${1}/${2}/${3}/${4}.html?
4、对于字母和数字只交替出现一次的,可以分别用数字和字母进行正则替换:
eg:
url对应关系:http://www.abc.com/az123/? ?->???? http://m.abc.com/az123/
pattern:http://www.abc.com/([a-zA-Z]+)([0-9]+)/-> http://m.abc.com/${1}${2}/?
5、中文字符串正则替换生成pattern例子:
eg:
url对应关系:http://www.abc.com/长城花园/ -> http://m.abc.com/长城花园/
pattern:http://www.abc.com/((?:%[a-zA-Z0-9]{2,})+)/-> http://m.abc.com/${1}/?
6、由'-'或者'_'连接的数字或者字母替换生成pattern的例子:
eg:
url对应关系:http://www.abc.com/byd-c3/-> http://m.abc.com/byd-c3/
pattern:http://www.abc.com/([a-zA-Z]+)-([a-zA-Z]+)([0-9]+)/->http://m.abc.com/${1}-${2}${3}/
注意:'-'和'_'出现多次可以使用同样的方式处理
如:abc-134_x-1
?7、对参数部分进行正则替换生成pattern的例子:
eg:
url对应关系:http://www.abc.com/article.html?act=test&id=123? ->?? ? ? ?http://m.abc.com/article.html?act=test&id=123
pattern:http://www.abc.com/article\.html?act=([^&]+)&id=([^&]+) ? -> http://m.abc.com/article.html?act=${1}&id=${2}
8、PC存在分页对应移动页面生成pattern的例子:
eg:
url对应关系:http://www.a.com/1234-1.htm ?http://www.a.com/1234-2.htm ? ->http://m.a.com/1234.htm
pattern:http://www.a.com/([0-9]+)-([0-9]+).htm -> ?http://m.a.com/${1}.htm
打赏功能
为了更好的为打造网络生态环境,提升站长收益,百度站长平台特别推出了打赏功能,下面为大家揭秘什么是打赏功能。
1.什么是打赏功能?
打赏是百度推出的全网通用的免费组件,站长按流程将相关信息设置完成后,把所获取的代码加入网页中,即可使用打赏功能,用户通过打赏按钮完成打赏流程后,打赏金额会转入站长所设置的账号中
2.注意事项
使用百度钱包支付方式,务必保证用所设置的账号至少登陆过一次百度钱包,否则打赏的金额将无法转入您设置的账号中
3.?防转码
为防止转码而导致页面中事件被禁用,无法使用打赏功能,请在页面中加入以下代码:<meta http-equiv="Cache-Control" content="no-transform">注:该防转码功能只针对微信有效
4.?使用支付宝支付方式,如何上传二维码
使用支付宝支付方式,如何上传二维码支付宝生成二维码地址:https://fama.alipay.com/qrcode/index.htm
第一步:登录支付宝
第二步:点击生成收款码
第三步:填写相关信息,点击创建,为保证用户体验一致,名称必须统一填“打赏”
第四步:生成二维码后,点击下载
选择图片尺寸12*12cm(暂只支持该尺寸)进行下载
下载图片后上传到站长平台即可
5. 使用微信支付方式,如何上传二维码
第一步:打开微信的收付款功能
第二步:选择收款?
第三步:将生成的二维码截图上传?
第四步:点击微信支付方式的“上传二维码”按钮,将图片进行上传
拖动方框部分可对图片进行裁剪,尽量只裁剪二维码部分,右侧是预览效果,请保证二维码处于方框中央。点击“保存二维码”
此时二维码上传成功,若要替换图片点击“上传二维码”进行重新上传
转载请注明:思享SEO博客 » 百度站长平台:平台工具怎么使用