百度XML地图规范的格式是怎样的

SEO基础 思享 2510浏览

百度Sitemap支持哪些格式

百度Sitemap协议支持三种格式:文本格式、xml格式、Sitemap索引格式,可以根据自己情况来选择任意一种格式组织sitemap。具体格式说明及示例如下:

txt文本格式

在一个txt文本列明需要向百度提交的链接地址,将txt文本文件通过站长平台进行提交

  • http://www.example.com/repaste/101562698_5230191316.html
  • http://www.example.com/repaste/101586283_5230215075.html
  • http://www.example.com/repaste/101639435_5230310576.html

此文本文件需要遵循以下指南:

  1. 文本文件每行都必须有一个网址。网址中不能有换行。
  2. 不应包含网址列表以外的任何信息。
  3. 您必须书写完整的网址,包括 http。
  4. 每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
  5. 文本文件需使用 UTF-8 编码或GBK编码。

xml格式

单个xml数据格式如下:

  1. <?xml version="1.0" encoding="utf-8"?>
  2. <!-- XML文件需以utf-8编码-->
  3. <urlset>
  4. <!--必填标签-->
  5.     <url>
  6.         <!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
  7.         <loc>http://https://www.4xseo.com/sitemap.html</loc>
  8.         <!--必填,URL链接地址,长度不得超过256字节-->
  9.         <lastmod>2009-12-14</lastmod>
  10.         <!--可以不提交该标签,用来指定该链接的最后更新时间-->
  11.         <changefreq>daily</changefreq>
  12.         <!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
  13.         <priority>0.8</priority>
  14.         <!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
  15.     </url>
  16.     <url>
  17.         <loc>http://https://www.4xseo.com/blog/476/</loc>
  18.         <lastmod>2010-05-01</lastmod>
  19.         <changefreq>daily</changefreq>
  20.         <priority>0.8</priority>
  21.     </url>
  22. </urlset>​

上述Sitemap向百度提交了一个url:https://www.4xseo.com/sitemap.html

若有多条url,按照上述格式重复之间的片断,列明所有url地址,打包到一个xml文件,向站长平台进行提交。

Sitemap索引格式

如需提交大量sitemap文件,则可将其列在sitemap索引文件中,然后将该索引文件提交。您无需分别提交每个文件。

  1. <?xml version="1.0" encoding="utf-8"?>
  2. <!-- XML文件需以utf-8编码-->
  3. <sitemapindex>
  4. <!--必填,以 <sitemapindex> 开始标记作为开始,以 </sitemapindex> 结束标记作为结束-->
  5.     <sitemap>
  6.         <!--必填,以<sitemap>标签提交一个子sitemap文件-->
  7.                     <loc>http://example.com/ext/xmlsitemap/add/201201/index_20120106.xml</loc>
  8.         <!--必填,识别sitemap的位置-->
  9.         <lastmod>2009-12-14</lastmod>
  10.         <!--选填,识别相对sitemap文件的修改时间-->
  11.     </sitemap>
  12.     <!--必填,标签闭合-->
  13. </sitemapindex>
  14. <!--必填,标签闭合-->​

有多个Sitemap,按上述格式重复之间的片断,列明所有Sitemap地址,向站长平台进行提交。

创建Sitemap时有哪些注意事项?

第一,一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。

第二,一个站点支持提交的sitemap文件个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。

第三,如果验证了网站的主域,那么Sitemap文件中可包含该网站主域下的所有网址。

如何提交Sitemap

第一步,将需提交的网页列表制作成一个Sitemap文件,文件格式请阅读百度Sitemap协议都支持哪些格式。

第二步,将Sitemap文件放置在网站目录下。比如您的网站为example.com,您已制作了一个sitemap_example.xml的Sitemap文件,将sitemap_example.xml上传至网站根目录即example.com/sitemap_example.xml

第三步,登录百度站长平台,确保提交Sitemap数据的网站已验证归属。

第四步,进入Sitemap工具,点击“添加新数据”,文件类型选择“URL列表”,填写抓取周期和Sitemap文件地址

最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的网站链接,可以选择文件后,点击更新所选,即对更新的网站链接进行了提交。

什么是移动Sitemap协议,如何提交移动Sitemap协议

百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了标签,它有四种取值:

  1. <mobile:mobile/> :移动网页
  2. <mobile:mobile type="mobile"/> :移动网页
  3. <mobile:mobile type="pc,mobile"/>:自适应网页
  4. <mobile:mobile type="htmladapt"/>:代码适配​

无该上述标签表示为PC网页

下方样例相当于向百度移动搜索提交了一个移动网页:http://m.example.com/index.html,向PC搜索提交了一个传统网页:http://www.example.com/index.html,同时向移动搜索和PC搜索提交了一个自适配网页http://www.example.com/autoadapt.html:

  1. <?xml version="1.0" encoding="UTF-8" ?>
  2. <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
  3. xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
  4. <url>
  5. <loc>http://m.example.com/index.html</loc>
  6. <mobile:mobile type="mobile"/>
  7. <lastmod>2009-12-14</lastmod>
  8. <changefreq>daily</changefreq>
  9. <priority>0.8</priority>
  10. </url>
  11. <url>
  12. <loc>http://www.example.com/index.html</loc>
  13. <lastmod>2009-12-14</lastmod>
  14. <changefreq>daily</changefreq>
  15. <priority>0.8</priority>
  16. </url>
  17. <url>
  18. <loc>http://www.example.com/autoadapt.html</loc>
  19. <mobile:mobile type="pc,mobile"/>
  20. <lastmod>2009-12-14</lastmod>
  21. <changefreq>daily</changefreq>
  22. <priority>0.8</priority>
  23. </url>
  24. <url>
  25. <loc>http://www.example.com/htmladapt.html</loc>
  26. <mobile:mobile type="htmladapt"/>
  27. <lastmod>2009-12-14</lastmod>
  28. <changefreq>daily</changefreq>
  29. <priority>0.8</priority>
  30. </url>
  31. </urlset>​

按照移动Sitemap协议做好Sitemap后,在Sitemap工具点击添加新数据提交,与提交普通Sitemap方式一致。

我提交时填写的周期是什么含义?

百度Spider会参考设置周期抓取Sitemap文件,因此请根据Sitemap文件内容的更新(比如增加新url)来设置。请注意若url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范围内。Sitemap工具不能解决页面更新问题。

Sitemap提交后,多久能被百度处理?

Sitemap数据提交后,一般在1小时内百度会开始处理。在以后的调度抓取中,如果您的sitemap支持etag,我们会更频繁抓取sitemap文件,从而及时发现内容更新;否则抓取的周期会比较长。

提交的Sitemap都会被百度抓取并收录吗?

百度对已提交的数据,不保证一定会抓取及收录所有网址。是否收录与页面质量相关。

我可以压缩我的 Sitemap 吗?它们是否需要用 gzip 压缩?

可以。请使用 gzip 压缩 Sitemap。无论压缩与否,Sitemap 应该小于 10MB(10,485,759字节)。

XML格式的 Sitemap 中,“priority”提示会影响我的网页在搜索结果中的排名吗?

不会。Sitemap 中的“priority”提示只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。

网址在 Sitemap 中的位置是否会影响它的使用?

不会。网址在 Sitemap 中的位置并不会影响百度对它的识别或使用方式。

Sitemap中提交的url能否包含中文?

因为转码问题建议最好不要包含中文。

URL列表—XML格式及规范说明:

标签名称 标签说明 标签类型 标签限制 可选/必选 举例
urlset
url url标记每条信息的开始和结束 / / 可选
最多出现50000次
url
loc 该条数据的存放地址 任意URL 最小长度1个字符
最大长度256个字符
符合正则表达式(http://)(.+)
必选 http://www.baidu.com/
lastmod 指该条数据的最新一次更新时间 日期或日期时间 格式为:YYYY-MM-DD[Thh:mm:ss],
日期与时间之间使用T分隔,可以仅提供年月日部分
可选 2013-01-01
changefreq 指该条数据的更新频率 字符串 有效值为:
always、hourly、daily、weekly、monthly、yearly、never
可选 always
priority 用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间 小数 大于等于0.0
小于等于1.0
可选 1.0

XML格式举例

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <urlset>
  3. <!-- urlset,urlset用来标记整个文档的开头,最少出现1次 最多出现1次 -->
  4.     <url>
  5.     <!-- url,url标记每条信息的开始和结束,最少出现0次 最多出现50000次 -->
  6.         <loc>http://www.baidu.com/</loc>
  7.         <!-- loc,该条数据的存放地址,最少出现1次 最多出现1次,类型为URL地址,最小长度1个字符 最大长度256个字符 必须符合正则表达式(http://)(.+) -->
  8.         <lastmod>2013-01-01</lastmod>
  9.         <!-- lastmod,指该条数据的最新一次更新时间,最少出现0次 最多出现1次,类型为日期或日期时间,格式为YYYY-MM-DD的日期或者格式为YYYY-MM-DDThh:mm:ss的日期时间(请注意日期与时间之间以“T”分隔) -->
  10.         <changefreq>always</changefreq>
  11.         <!-- changefreq,指该条数据的更新频率,最少出现0次 最多出现1次,类型为字符串,有效值为:always、hourly、daily、weekly、monthly、yearly、never -->
  12.         <priority>1.0</priority>
  13.         <!-- priority,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间,最少出现0次 最多出现1次,类型为小数,最小值为(包含)0.0 最大值为(包含)1.0 -->
  14.     </url>
  15. </urlset>

摘自:http://zhanzhang.baidu.com/site/format

全文转载自:《百度地图XML格式及规范说明全攻略

推荐阅读

XML网站地图中,“priority”会影响排名吗?

不会。Sitemap 中的“priority”提示只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名...

什么是Sitemap网站地图?

Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。 百度对......

百度的API推送和网站地图提交有什么区别?

状态反馈更及时了,原来提交后需要登录到搜索资源平台查看提交是否成功。目前只要根据提交后返回的数据就可以判断了 其他回答 参考回答 百度提供多种提交数据的方式,相对来说,网站地图更基础一些,百度API推送效果会比sitemap提交好些。但是这几种推送方......