关于robots文件作用与写法的总结

首先我们应该明白robots.txt文件是网站与搜索引擎之间的一种协议，当搜索引擎来抓取你网站的时候，首先会看你网站根目录的robots文件，搜索引擎会根据你写的这个协议来抓取你的网站内容，当然抓取的页面都是由你写的robots来确定的。
robots的基本概念与作用
搜索引擎使用spider程序来访问网站里面的内容，但是你的robots文件可以告诉它那个页面可以访问，那个页面不可以访问，有些人认为网站当然容许抓取访问了，错，一些网站后台隐私文件、js、死链这些都是需要屏蔽的。
robots常见的规则
1、user-agent指令: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取，如果此指令指定了特定的蜘蛛，那么此指令下跟的内容就对特定蜘蛛有效。
2、disallow指令：指禁止搜索引擎抓取的路径，也就是说此指令定义了禁止蜘蛛抓取哪些内容
3、allow指令: 允许搜索引擎收录的地址，此指令定义了允许蜘蛛抓些哪些内容，如果是某些内容允许，其它全部拒绝，则可以用这个指令，大多数网站只用到禁止指令。
user-agent的用法示例
此指令是用来定义蜘蛛名的：常见的蜘蛛名包括：baiduspider、googlebot、msnbot、baiduspider-image、youdaobot、sogou web spider、sogou inst spider、sogou spider2、sogou blog、sogou news spider、sogou orion spider、sosospider、pangusospider、jikespider、yisouspider、easouspider。
disallow的用法示例
1、禁止整站被抓取：
disallow: /
2、禁止根目录下的woniuseo目录抓取：
disallow: /woniuseo/
3、禁止根目录下的woniuseo目录下的单个页面woniuseo.html被抓取：
disallow：/woniuseo/woniuseo.html
4、禁止全站含有？的页面被抓取：
disallow: /*？*
5、禁止全站含有woniuseo的页面被抓取：
disallow: /*woniuseo*
6、禁止全站后缀为.aspx的页面被抓取：
disallow: /*.aspx$
7、禁止全站后缀为.jpg的文件被抓取：
disallow:/*.jpb$
allow的用法示例
1、允许所有页面被抓取：
allow: /
2、允许woniuseo的目录被抓取：
allow: /woniuseo/
3、允许抓取.html的页面：
allow: /*.html$
4、允许抓取.jpg的图片：
allow: /*.jpg$
总结：
把上面的内容结合起来就能够得到最佳的wordpress程序robots.txt文件了。
user-agent: *
disallow: /wp-admin/
disallow: /wp-content/
disallow: /wp-includes/
disallow: /*/comment-page-*
disallow: /*?replytocom=*
disallow: /category/*/page/
disallow: /tag/*/page/
disallow: /*/trackback
disallow: /feed
disallow: /*/feed
disallow: /comments/feed
disallow: /?s=*
disallow: /*/?s=*\
disallow: /attachment/
使用方法：新建一个名称为robots.txt文本文件，将上面的内容放进去，然后上传到网站根目录即可。最后，就要要去网站看一下文件是否存在http://你的域名/robots.txt。上面只是些基本的写法，当然还有很多，不过这些已经够我们使用了。

上一个：网站建设之YouTube推出了新功能，以帮助创作者提高销售量
下一个：官方网站设计的形式有哪些？