什么是robots协议对seo的影响_响应式网站建设网络科技类网站

蜘蛛spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。早期robots协议是防止网站内的隐私，防止抓取用户不想让搜索引擎曝光的页面。

robots.txt文件应该放置在网站根目录下。比如https://www.vi586.com/robots.txt这个文件

User-agent: * Disallow: allow:

百度蜘蛛目前在robots里不支持中文，如果路径里面带了中文，可以选择UrlEncode编码的写法，如

http://www.xx.com/tags/%D7%B0%D0%DE%CE%AC%BB%A4%B1%A3%D1%F8.html

Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

"$" 匹配行结束符。 "*" 匹配0或多个任意字符。

1.屏蔽隐私内容或无内容页面。前面提到蜘蛛的爬取对索引量有着重要的作用，能缩短收录周期。蜘蛛一般都会全站爬取内容，但有些质量一般的页面被抓取会影响整体排名，比如：登陆页、注册页、购物车、表纲、个人隐私文件等。

2.屏蔽某些动态的内容屏蔽，如：tag标签，在刚开始的时候尽量屏蔽蜘蛛抓取，到后期稳定的时候再整理后开放。tag标签的作用可以参考《TAG标签的正确用法》

3.屏蔽重复内容页面。如：多个页面无内容或空评论；不同路径打开的页面都一样。跟带www和不带www的页面说法不一样，可以把这两个页面301重定向到其中一个，集中权重。

4.屏蔽死链接。一般的死链会返回404错误，当然站内错误或服务器问题，是无法屏蔽的。

dede后台有很多php、js、css等内容，但这些内容对排名没有太大作用，可以使用disallow禁止抓取。

User-agent: sogou spider Disallow: /

代表禁止搜狗蜘蛛进行抓取，在中国大陆范围内，一般的企业网站只要百度蜘蛛，谷歌蜘蛛，360蜘蛛就可以了，其他蜘蛛频繁抓取网站会造成网站访问速度受到影响。如果禁止这些蜘蛛进行抓取，搜索引擎认为你是不友好的。

Sitemap: http://www.vi586.com/sitemap.xml

以上字段是引导蜘蛛按照sitemap网站地图的要求抓取。蜘蛛的抓取顺序是按照编写自上而下，如果控制得越精确，则遵循精确的规则。

该行有符号“/”，代表着只包含该栏目下的文章/目录/子类，不包含本身；

反之无“/”，代表包含包含该栏目下的文章/目录/子类和本身。

什么是robots协议对seo的影响