百度LEE团队:权威解答SEO常见的那些问题

SEO问答录 思享 1703浏览

最近看了一下百度的站长社区,发现好久没有更新了,但是很多老问题看了还是有温故知新的感觉,看着很多人整天问这个问那个,连最基本的百度LEE团队解答都没看过,其他看过这些问答常见的seo疑问都能解答。

由于帖子查看不便,Roy花费3小时,将所有问题和答案整理归类去重,希望有一个便捷高效的阅读体验,希望朋友们有收获。

百度

竞价影响

1. 没做竞价网站会被K吗?

描述:Baiduspider-sfkr 来过之后,当天网站收录就被K为0了,然后百度蜘蛛还是正常爬取,但就不收录。请问这是怎么回事,没有做竞价的站,,居然来了竞价蜘蛛,发现没做竞价就K站?

官方回复:百度的商业推广和自然搜索,是由完全独立的两个部门分别运营两套独立系统。Baiduspider-sfkr的抓取,和网页自然搜索无关,也不会对网页自然搜索产生任何影响。

域名

2. 搜索引擎对 .cn .org .com有偏好吗?

官方回复:没有偏好

3. 很多人说.info和.hk等域名被降权了,是不是真的?

官方回答:使用何种后缀的域名,对搜索引擎没有直接的影响。但.com、.cn、.net等常见的域名后缀更容易记忆,一些不常见的后缀可能会让用户产生不信任感,增加用户的判断成本。

运维

4. 关于使用多域名实现资源并行下载对网站有没有影响?

问题补充:很多网站为了提高网站访问速度,网站对静态资源文件使用了独立的无cookie域名。虽然提升了网站的性能,但同时也在网站页面上产生了大量的不属于该网站域名的资源调用链接。例如:abc.com网站将abcimg.com域名做为其图片资源调用的域名来使用,这时在abc.com的页面上调用的图片HTML代码为<imgsrc=”http://pic1.abcimg.com/123.jpg”>请问Lee对于这类的URL是如何判断的呢?是否会将其做为该页面的一个出站链接来判断?如果页面上这类的链接过多,是否会对网站的SEO效果产生影响呢?

官方回答:这是一种非常正当的做法,从网页搜索的角度来看,没有任何直接的影响,和调用本站的资源是一样的。

5. 网站的gzip压缩对网站的收录和权重有没有影响?

官方回复:gzip对收录和权重没有影响。对搜索引擎唯一的影响,是抓取速度会快一些。

6. 网站被黑导致K站该如何处理?

问题补充:网站在9.19被恶意攻击,被加入了大量不良信息,之后被百度收录。网站工作人员及时清理了那些信息,但是百度在10.17把本站给K了。本站为工业类正规站,并且无任何作弊记录。该如何处理?

官方回复:黑客恶意攻击网站以后,会在网站中插入大量的作弊内容。建议尽快清理黑客插入的不良信息并在Baiduspider抓取这些内容时返回404代码,这样我们才能迅速的发现网站已经恢复正常。

7. 更换服务器是否对排名有影响?

官方回复:原则上是不会的。除非新换的服务器太糟糕,三天两头访问失败,或者服务器从国内换到国外,这就很可能被和谐。

8. js代码弹窗是否会影响自然排名?

官方回复:任何对用户体验有增益或者减益的做法,其实会影响到用户的”投票”行为。而这些投票行为,又会影响搜索引擎对这个网站的评价算法。所以,弹不弹窗并不重要呀,关键是这种弹窗会对用户造成什么样的影响。

蜘蛛

9. 百度蜘蛛的IP,是否有降权蜘蛛IP,考核蜘蛛IP,高权重蜘蛛IP这么一说?

问题补充:例如123.125.71.* 都说这个是降权蜘蛛;220.181.108.* 这个是高权重蜘蛛

官方回复:没有

10. 如何判断是否冒充Baiduspider的抓取?

问题补充:220.181.51.* 这个ip段是百度蜘蛛吗?

官方回复:如何判断是否冒充Baiduspider的抓取?百度帮助中有详细的描述http://www.baidu.com/search/spider.html

11. 服务器加了硬防之后会不会影响蜘蛛抓取?如果有影响,那么该如何解决为好?

官方回复:不会,只要是不封禁百度的抓取,以及不写robots,就不会影响

抓取

12. 百度是否跟踪JavaScript链接?

官方回复:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。

13. 百度是否能抓取CSS样式表并识别分析?

官方回复:百度是能够抓取并分析CSS的。

14. 对较多图片和flash的页面,搜索引擎会如何处理?

问题补充:目前很多页面可能会没有很多的文字,比较多图片和flash,对没有很多文字的页面,搜索引擎能很好的将这个页面中的资源识别出来吗?

官方回复:目前在推一个工具,将spider抓取日志展示出,去看下是否符合站长的抓取意愿,且对某些js较多的网站,假设目前收录不好,可先尽量减少js的使用。

15. 百度蜘蛛现在可以抓取HTML5的标签吗?

官方回复:百度可以解析HTML5的标签。

16. 百度蜘蛛如何爬取不存在的路径?

官方回复:Baiduspider只抓取能从互联网上找到的url,如果Baiduspider大量抓取你网站上不存在的url,可能有两个原因:

1) 内链:你网站内有部分网页指向其他网页的url格式不正确。

2) 外链:互联网上有其他网站指向了你网站内不存在的网页。另外,Baiduspider抓取到不存在的网页,服务器应该返回404错误。

收录

17. 网站上线一个月,百度为何只抓取首页?

问题补充:网站离上线到现在已经一个月左右了,百度只抓取首页,也不见放出来,这是为何?
官方回复:建议参考《百度搜索引擎优化指南2.0》中“子域名与目录选择”部分。

18. 为什么蜘蛛每天爬n次,而收录网页只有一两篇?

官方回答:网页抓取和建立索引是不等同的。这些网页会经过一些必要的chk过程之后才会被建入索引。

19. 页面收录到一定值后,收录量就增加很缓慢怎么办?

问题补充1:比如:人人日志,上千万的数据,用了一年多的时间目前收录了几百万,且大部分内容都是很高质量的,但收录量到一个值之后,就没有增加,这个是什么原因?
问题补充2:姓名类的产品,通过sitemap提交之后,上千万的数据还是收录了700w+,会不会被认为这些页面是相似的页面。

官方回复:

回复1:人人之前有一些页面比较封闭,这两年才开始开放,但是spider根据之前的日志分析,对人人网的改动反应偏慢,所以推出了sitemap,希望大家通过sitemap将大家想进行索引的数据进行主动推送。

回复2:互联网资源很多,相似的产品很多,由于资源有限,会尽可能优先选取有价值的页面去抓取。一次提交的页面量很大,搜索引擎需要一定的时间去收录,搜索引擎可能会每天设置一定的压力上线去抓取,避免对站长产生太大的压力,可以尝试使用百度站长平台的抓取压力调节工具调试自己网站的抓取压力,增加压力,我们这边可以适当提高自己的压力加快抓取。

url规范

20. 百度建议URL静态化吗?

问题补充:还是像Google一样,不建议URL静态化?对伪静态怎样看待?和真的静态文件一样吗?

官方回复:对URL的动静态,没有歧视政策。  之所以以前有过提倡静态的说法,是因为很多动态URL,带了很多参数,而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我们在这上边花了不少精力。所以,总的原则就是,URL的动静态无所谓,只是尽可能的避免重复即可。但是动态url也不要动态得太变态,搞几十个参数,那会吓着蜘蛛。酝酿中的sem指南,会有对url优化方面的详细说明。

301跳转

21. 关于301跳转的权重继承问题

问题补充:域名A 曾经301至域名B,如果现在又将域名B 301回 A,是否还能保持原来权重?

官方回复:还能保持原来的权重,但会有一段时间的考查和权值转移期

22. 百度下的301是将权重替换还是叠加?

问题补充:新域名在百度下的权重比旧域名高的情况下,将旧域名301重定向到了新域名会有什么影响?或者说百度下的301是将权重替换还是叠加的呢?

官方回复:将旧域名301重定向到新域名,旧域名的权值会叠加到新域名上。

nofollow

23. nofllow 是否会浪费权重

官方回复:不会

404页面

24. 404页面不去处理的时候,会对网站权重产生影响吗?

官方回复:搜索中出现的无结果页面,是对用户最大的伤害,这种可能就会被认为该网站内容管理不好。

25. 如何处理404页面?

官方回答:建议统一筛查全站近期的404页面,做成死链的sitetmap文件(制作帮助见http://www.baidu.com/search/badlink_help.html),登录站长平台,使用死链工具进行提交。此方法对降低404页面对网站造成的负面影响效果最优。

26. 404页面是不是必须要提交,才可以很好的被删除?

问题补充:目录下很多垃圾的标签,做了404设置,但是不清楚被收录的有多少,能不能把垃圾标签页面都导出来?

官方回复:检测死链-spider一条条去访问,确定是否是死链。建议大家主动去提交死链,站长了解自身网站的情况,可以比较好的进行提交,这个工具是为了弥补系统的问题。目前我们也在探讨能不能推出比较简单的工具,帮助站长解决这种问题。

27. 关于404页面的问题

问题补充:当我们由于变更产生404之后,百度会间隔多长时间识别出来?并且需要识别几次才会将其删除?对有些尚未做好的专题页面,可能会临时设置为404页面,之后很快将页面恢复,但这些专题页面中有一部分很快就能够恢复,还有一部分就需要很长时间才可被收录,因此有重大新闻时,会紧张重大专题被及时收录的情况。

官方回复:不会有固定的时间,会根据网页的和所在频道的更新频率,去确定删除的时间,未做好或者非作为死链的页面,尽量不要用404的返回码,希望尽可能用503的返回码,这样spider能够比较好的去识别。

Robots

28. robots.txt到底能不能屏蔽百度蜘蛛?

问题补充:我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?

官方回复:如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。

29. robots解除禁止抓取后的生效时间有多长?

官方回复:百度发现robots设置并更新抓取状态,正常情况在7天以内。

Tdk

30. 标题长短对于网站权重的影响有多大?

官方回复:正如同一个页面上的导出链接越多,每个链接获得的权重越小一样,title上的关键词越多,单个关键词获得的权重也会越低。这是很直观的逻辑。但是,如果为追求某个关键词的权重,极力压缩标题长度,那么真正合乎该页面的搜索需求,又很难被命中。所以,一般性的建议就是,实事求是的将页面主旨反映在标题中即可。如果要做长青树,不要在乎一时一刻的seo效果(那个很累、很烦),把网站的忠实用户人气做起来就成了。

31. 标题过长是否会对百度搜索不利?

官方回复:这个自然是没有限制的。很多人喜欢往标题里塞很多关键词,以为那样就全面开花,但很可能适得其反,这个原理跟在一个页面上有多个超链接一样。分一杯羹的人越多,每个人所得的羹越少。

32. 修改页面标题(如增加前缀或后缀)是否会影响网站排名?

官方回复:title是极重要的内容,大幅修改,只会带来大幅波动,所以请慎重对待网页标题。

33. 修改首页的description标签,会不会受到惩罚?

官方回复:这个肯定是多虑了,我们鼓励大家通过description来撰写网站的简介,只是过于频繁的修改,可能不会及时反馈在摘要中。

34. 搜索结果中显示标题与实际标题不一致?

官方回复:原因比较复杂,需要针对性分析。主要原因可能是tag title提取失败,系统只好从其他地方取了一些文本作为标题。这种提取失败的原因,有网页设计层面的(比如全是flash或者ajax),也有robots封禁层面的(某些重要网页虽然不抓取,但会保留url本身)。还有一些系统异常也会造成类似的现象。如果不符合一般性的预期,这类问题都可以直接提交至webmaster#baidu.com。会有工程师跟进的。

页面大小

35. 百度规定的网页大小是多少?

官方回复:以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?
页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。

36. Google倾向于说每个网页的导出链接不要超过100为宜,百度有没有什么建议?

官方回复:这个暂时没什么建议。一般情况下,链接数量,会影响到这些链接从该页面上所获得的权重;少就多分一些,多就少分一些。

用户行为

37. 链接点击率是否计入排名算法?

问题补充:百度是否有会估算某网页的某个反向链接被点击次数(例如:从工具条、流量统计等工具得到的部分数据)?比如是否把链接的点击率计入算法之中?是否会利用这点来判断哪些是隐藏链接?或者判断外链的相关性等因素。
官方回复:我只能说,一切有利于排序改进的因素,都有可能被搜索引擎尝试应用。

外链

38. 百度的真正外链是什么命令,是否无法查询?

官方回复:百度目前没有查询外链的查询命令,但我们已经计划在站长平台中支持外链查询。

39. 百度认为seo的外链怎样做比较合适?

任何搜索引擎,对超链计算有基本的准则,链接是否真心实意的推广网站,若存在利益的交换,搜索引擎都会进行识别,目前的买卖链接、黑链 是无效的,希望大家能够真正赢得其他站长的推荐。

40. 文本链接url地址,百度是否会抓取?是否也会给于相应的url地址权重呢?

官方回复:文本链接url地址,百度会发现他是一个url地址并通过这个地址到相应的url地址上去抓取,搜索引擎的spider需要及时发现和抓取互联网上的链接,至于链接是什么形式,并不重要,也许有一天,我们还可以识别图片里、语音里、视频里或是其它形式的链接。

是否传递权重?我们对链接是否应该传递权重,唯一的判断标准是:这个链接是否用户or对方网站真心推荐你的网站、这个推荐,是否对用户有价值。

41. 一个链接的权重会不会过一段时间后就会没有了,或者逐渐降低?

官方回复:如果各位站长要揣摩百度的策略细节,我觉得不如站在用户的角度,用一种合乎常理的逻辑去做推断。比方链接时效性问题,实际是有利有弊。利在于,过去的投票,只反映被投票者在过去的价值,不见得能反映现时情况;弊在于,正常投票不大会重复投,过去投过了,现在就可能不投了,但不代表现在对被投票者的不认可。那么究竟应该怎么做呢?呵呵。我也不清楚。

内链

42. 百度如何处理一个页面上的重复链接?

问题补充:一个页面有多个重复的链接,并且链接文字相同,搜索引擎在传递权重时,只传递一次权重,还是每个链接都要传递权重?另外,这几个重复的链接获得的权重一样么?
官方回复:重复的链接不会增加链接权重

43. 如果链接文字不同,搜索引擎会怎么分配链接的权重?

官方回复:回复2:链接的权重判断是个极其复杂的系统,我们不推荐关注技术细节。我们系统中的任何策略,都是以“对用户是否有价值”为判断原则和标准。这不仅仅是个口号,在这个链接的话题上不妨套用一下:一个页面出现了许多文字不同,指向相同的链接,它们对用户有价值吗

原创/内容

44. 关于原创内容的排名问题

问题补充:原创的页面,理论应该能够排名很好,但是被其他网站超过,请解释一下?

官方回复:原创内容被其他转发网站超过,目前这种问题存在很多,希望能通过这个目前在做的生态项目进行解决。

45. 原创内容不能被识别怎么办?

官方回复:这个,只能说百度的策略还不是很完善,我们也一直在改进。另外,从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

46. 百度对重复内容是如何处理的?

官方回复:搜索引擎的排序出发点,是用户的搜索体验。虽说,很多时候尊重原创和用户体验是一致的,但是,毕竟也有一些案例,转载的体验会比原创更好,这时原创的排序未必会高于转载者,但是,原创的应该以另外一种方式被肯定,而不是简单的被聚合掉。

47. 关于重复网页判断与代码语义化

问题补充:某房地产网站,该网站主要包括一些房子的数据,格式如下:

房子的实际面积:90平方

房子可用面积:100平方

房子是否抵押:否

房子是否过户:是

一套房子有大概二十多条类似的属性数据,网站有十几万套房子数据,全部都用table标签布局显示。数据的内容大多是一些数字,文字比较少。它们的排版格式基本一样,只是数据的内容不同。

问题1:请问这样的网页百度是否会把这些页面当成雷同或重复页面拒绝收录呢? 但实际上那些数据都是不一样的,都是有用的。

问题2:从网页代码语义化的角度来说,用什么样的html标签才能让百度更容易理解我的数据呢?

官方回复:

问题1:这些页面不会当做重复页面拒绝收,百度可以识别

问题2:可参考百度搜索引擎优化指南2.0http://wenku.baidu.com/view/d8936e68af1ffc4ffe47acab.html

快照

48. 百度快照不完整,友链还有用吗?

问题补充:在百度快照里页面没有显现完整,首页底部(友情链接及版权信息那块)代码和页面都没在快照中出现,那么友情链接对其他网站还有用吗?官方回复:这种情况不会影响友情链接。另外,我们建议尽量将页面大小控制在合适范围内。

49. 目前百度对申诉问题是的处理情况是什么样的?

每天有上千的投诉,只有10%是有效投诉,无效信息太多,导致处理较慢,希望大家能够尽可能去提交有效的信息,减少无效的工作量。

站群

50. 百度如何定义站群?

官方回复:互联网是在不断变化的,站群在每个时期的定义也不一样。
不必纠结于概念,建议认真的思考一下,为何要做一堆的网站,这些网站是否对用户有价值,如果没有搜索引擎,还会不会这样做。提醒大家真正重视起“对用户的价值”,这是我们的处事原则。像站群,我们并没有严格、一成不变的定义,也不会仅根据“是不是站群”就决定如何处理这些网站。我们的系统和策略会根据这些网站对普通用户的价值如何,做出评估和判断。当然,目前还有一些漏网之鱼,正是我们改进策略的动力和目标。
我们一直有一个很好的反馈途径,有问题可以来下面的地址提交反馈,当然,请尽量清晰的描述问题,虽然我们无法具体一一回复,但我们有专人负责收集、分类,并转给相关的负责人分析,并会成为算法改进的依据。http://zhanzhang.baidu.com/feedback

至于“很多不公平的情况”,这正是我们致力改进的,但罗马不是一天建成的,我们需要时间来逐步的完善,各位的意见和建议,对完善的过程有很大的促进作用,有什么意见,尽管提吧。

51. 百度对站群怎么看?

官方回复:站群只是一个现象,主要看是否进行了作弊,例如搜狐,网站也很多,但没有被k过。只要站群能够用正当的手段去做,真正的给用户做内容,是不会被k掉的。

作弊

52. TAG的SPAM页面百度如何看?

问题补充:有些网站没有控制用户的行为,可能会产生spam 的情况,数据量太大,垃圾标签+分页的量在700w+的水平,整体提交担心权重被k

官方回复:很多网站喜欢去做tag,但非用户行为,而是直接抓的网页搜索结果,虽然tag写的好,但是内容不相关,也属于一种作弊。

53. 如何处理作弊内容?

问题补充:网站流量下滑,自查后发现是站点的内容的原因,这些页面要怎么处理,建议404 还是自己屏蔽,还是都能够被认可是对这些内容的改善?

官方回复:这两种都可以。假设一个目录下的一些资源存在作弊情况,可能会引起一些规模的资源被屏蔽,搜索引擎认为一个网站有作弊行为,通常是哪有问题,会屏蔽哪,但如果作弊内容多,可能会将整个网站k掉。

54. 是否会开发网站作弊预警?

问题描述:百度算法升级后,假设有一个站被k,站长才会想去改善这个产品,对这种情况有没有作弊的预警,可以让站长提前去改善。

官方回复:目前算法升级等有较大功能更新,会发布公告告知,但还没有做到预警,11月份会与反作弊小组一块在百度站长平台推出一个预警

55. 买来的域名以前有作弊,是否会影响?

问题描述:一个网站,文章资讯由数个编辑编辑人工增加(少部分原创),百度蜘蛛每日来爬,就是页面一页不收录,已经一个月了。 该域名系拍卖而来,不知是否以前有过被惩罚记录,抑或其他原因?请教!

官方回复:对于域名转手,我们有一套判断机制,正常的域名转手,域名会被当做一个全新的域名看待,无论此前是否有过作弊被惩罚,前帐一笔勾销。

推荐阅读

百度搜索资源平台:网站备案是评估权威性的重要因素

关于权威性的那些事儿你都知道吗?今天小编就从权威性在百度搜索中的作用、什么是权威性、如何评估权威性和权威性之官方结果四个方面为开发者们详细解读。 权威性的作用 1.对用户而言: 为用户提供可信赖的权威结果,能够提高用户的信任,用户可以获得专业可靠的信......

网站想获得排名要怎么做,避开那些错误

如何让百度搜索选择我? 网站的基本素质 新站建立时适当交换外链,利于Spider爬取发现资源;同时开发者也可以前往百度搜索资源平台向百度搜索主动提交站点新增的高时效性资源,缩短爬虫发现网站资源的时间; 首页内容要保持一定的更新速度,持续优化,并且视觉......

百度站长工具改版“无需改版”的无奈

因为觉得自己个人备案太麻烦,所以一直有用一些备案域名。备案域名备案掉了就改版另外换一个备案域名。基本上以前操作过几次,没什么流量损失,只是需要一段时间让新站重新收录。然后,三个月前的改版,让我感到很无奈 改版工具 百度站长平台的改版工具,已经上线了好......