robots文件是否支持中文目录

站长学院 思享 1888浏览

robots.txt文件告诉了搜索引擎,哪些内容允许抓取,那些内容不能抓取。那么,对于含有中文的URL,改文件是否能够很好的支持呢?就此问题,可以参考如下:

有同学问百度站长学院一个关于robots的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.a.com/冒险岛/123.html,那在制作robots文件和sitemap文件的时候,可以直接使用中文吗?百度能获取到吗?在实际操作中我们发现,sitemap中有文件是可以生效的,但robots封禁貌似没有反应,所以想确认一下:robots文件是否支持中文?

robots协议

工程师解答

Baiduspider目前(2016年10月)在robots里是不支持中文的。

同学追问

那我们进行UrlEncode编码会不会支持呢?比如这种:http://www.a.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97

工程师解答

robots文件支持这种写法。但是否生效,还要取决于当时BaiduSpider抓取的是哪种形式结构的链接,如果是UrlEncode编码就可以生效,如果是中文就非常不幸了。

推荐阅读

robots.txt文件应该放在网站哪里?

robots.txt文件应该放置在网站根目录下。比如说,当spider访问一个网站(例如http://www.chinaz.com)时,首先会检查该网站中是否存在http://www.chinaz.com/robots.txt这个文件,如果Spide......

robots禁掉动态链接,问号前面的静态URL抓取吗?

不会的,你原来的页面还在,肯定会抓。...

网站禁止收录所有动态页面,该怎么设置?

我们知道动态页面都有一个共同的特征,就是在链接里会带有"?"这个问号的符号,因此我们可以在robots.txt文件里写入如下这样的规则: User-agent: * Disallow: /*?*...