阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Robots.txt 是什么/有什么用/怎么写

218次阅读
没有评论

共计 1422 个字符,预计需要花费 4 分钟才能阅读完成。

1. Robots.txt是什么?

我们都知道 txt 后缀的文件是纯文本文档,robots 是机器人的意思,所以顾名思义,robots.txt 文件也就是给搜索引擎蜘蛛这个机器人看的纯文本文件。robots.txt 是搜索引擎公认遵循的一个规范文档,它告诉 Google 百度 等搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止收录的。搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有 robots.txt 文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。

如淘宝网就通过设置 robots.txt 屏蔽百度搜索引擎:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

2. robots.txt 有什么作用?

robots.txt 文件至少有下面两方面的作用:

通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因 spider 抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。
设置 robots.txt 可以指定 google 或百度不去索引哪些网址,比如我们通过 url 重写将动态网址静态化为永久固定链接之后,就可以通过 robots.txt 设置权限,阻止 Google 或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对 SEO 优化起到了很明显的作用。

3. robots.txt 怎么写?

关于如何写 robots.txt 文件,在下面我们会以 WordPress 博客来作更具体举例说明。这里先提示几点 robots.txt 写法中应该注意的地方。如 robots.txt 文件里写入以下代码:

User-agent: *
Disallow:
Allow: /

robots.txt 必须上传到你的网站根名录下,在子目录下无效;
robots.txt,Disallow 等必须注意大小写,不能变化;
User-agent,Disallow 等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。网上有人说冒号后面必须有空格,其实没有也是可以的。
请看谷歌中文网站管理员博客的设置就是这样:http://www.googlechinawebmaster.com/robots.txt;
User-agent 表示搜索引擎 spider:星号“*”代表所有 spider,Google 的 spider 是“Googlebot”,百度是“Baiduspider”;
Disallow: 表示不允许搜索引擎访问和索引的目录;
Allow: 指明允许 spider 访问和索引的目录,Allow: / 表示允许所有,和 Disallow: 等效。

4. 特殊案例情况:robots.txt 与子目录绑定的问题

如果 forum 用的是绑定子目录的方式,而实际使用的是比如是 forum.hcm602.cn 这样的二级域名,那么就要避免 www.cmhello.com/forum/ 这样的 url 被搜索引擎收录,可以在主目录中的 robots.txt 中加入:
User-agent: *
Disallow: /forum/

Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。(除非你的子目录是一个绑定了域名的新网站)

本文来自网络,站长(www.cmhello.com) 整理编辑,请原创作者及时与站长联系。

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-22发表,共计1422字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中