使用robots.txt文件来控制对网站的索引-新闻资讯-东莞企业网站建设,东莞网站设计,东莞网站制作公司,东莞品牌网站设计

当前位置：网站首页

新闻资讯

使用robots.txt文件来控制对网站的索引

使用robots.txt文件来控制对网站的索引

编辑：八桂网讯时间：2009/5/1 浏览：1630 次

八桂网讯 认为创建robots.txt文件的最简单的方式就是使用网管工具中的robots.txt工具.一旦创建了文件，就可以使用分析robots.txt工具来确认是否一切运行正常。
当创建了robots.txt 文件后，将它命名为robots.txt并保存到域名下面。这就是搜索引擎程序将检查文件的地方，如果保存到其它地方，将可能找不到。
也可以自己手工创建robots.txt 文件,使用任何文本编辑器就可以. 应该是一个ASCII类型的文本文件，而不是HTML文件，另外文件应该用小写字母。
句法规则
最简单的robots.txt 文件有两个主要的规则:
User-agent: 应用到robot上的规则
Disallow: 想阻止的URL
以上的两点是文件当中的条目，也可以添加一些其它的条目进来.
用户规范下应该放哪些呢？
User-agent是一个特定的搜索引擎机器程序.在web robots database 那列有很多的常见的robots。可以设置一个条目将其应用到特定的robots(通过列名的方式),或者也可以应用到所有的此类robots 看如下例子：
User agent: *Google 使用几个不同的robots 程序.(user-agents),Google 所使用的进行网页搜索的robots 是Googlebot。其它的一些bots 例如Googlebot-Mobile 和Googlebot-Image 也遵循哪些设置给Googlebot 的规则, 但是你也可以给他们设置其它的一些单独的规则。
Disallow 下面该列出哪些呢？
Disallow 条目下列出那些你想阻止的页面,可以列出一个特定的URL 或者是一个样式. 此类条目以前向划线(/)开始.
阻止正个站点，使用前向划线.
Disallow: /
阻止某个目录或者此目录下的所有内容, 在目录名后面加前向划线。
阻止一个页面，列出此页面. 如：
Disallow: /private_file.html
从Google图片搜索中移除某个特定的图片
添加如下：
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
从Google图片搜索中移除所有的图片，如下:
User-agent: Googlebot-Image
Disallow: /
阻止某个特定类型的文件(如gif文件),使用如下:
User-agent: Googlebot
Disallow: /*.gif$
阻止站点上某些页面被搜索引擎收录,但是仍然显示站点投放广告,
除了Mediapartners-Google之外的所有其他bot. 这可以阻止页面在搜索引擎的搜索结果中显示出来,但是mediapartners-Google bot 程序来分析页面从而决定哪些广告可以显示。mediapartners-Google bot 不同其它的Google user-agents共享页面.比如：
User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
注意一点就是检测程序都是很敏感的. 比如说过, Disallow: /junk_file.asp将可能阻止http://www.example.com/junk_file.asp,但可能允许http://www.example.com/Junk_file.asp 这个页面的显示.
样式匹配
Googlebot (but not all search engines) respects some pattern matching.
Googlebot（但并不是所有的搜索引擎）尊重一些样式匹配.
匹配一系列的字符，使用型号符(*)
比如，阻止所有的以private开头的子目录
User-agent: Googlebot
Disallow: /private*/
阻止所有的以private包含问号的子目录（或更具体,所有的以你的域名开头的地址，接下来是字符串，然后是问号，又接着字符串）
User-agent: Googlebot
Disallow: /*?
指定对URL末尾的匹配，使用$. 比如, 阻止以xls结尾的URL
User-agent: Googlebot
Disallow: /*.xls$
也可以配合使用allow指令来使用这个样式匹配. 比如:
如果一个? 表示某个session ID,你将可能想除去所有的包含它的地址以确保Googlebot 不去收录重复的页面. 但是以问号(?)结尾的文件可能就是你想包含的页面.在这种情况下，你可以按如下设置robots.txt 文件:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *? 指令将会阻止所有的包含? 的网页(更具体点,那些以你的域名开头的，然后是其它字符串，接下来是问号和其它字符串)
The Allow: /*?$ 指令允许所有的以?结尾的页面.(更具体点，以域名开头的，接字符串再加问号结尾的)