服务导航
企业概况     李墨菲博客
百度推广、谷歌推广、SEO优化
域名注册、服务器 VPS租用
网站服务流程    业务渠道代理
网站建设价格表
搜索引擎竞价排名服务
800元企业网站制作特价套餐
搜索引擎免费登录口
咨询QQ:2196677
售后QQ:82090889
为什么要选择八桂网讯?
8年品牌网站建设经验积累,网站成功客户超2200家!
在为您提供服务的任何一个环节,我们都拥有自己的核心团队,保障售后服务的可控性。
由程序编程师、平面美工设计师形成的专业后盾组合,从asp、asp.net、php到java的知识结构互补,使得八桂网讯能够满足客户的功能需求和二次开发整合。
全面的成熟团队为能为您提供一流的平面设计和网站管理后台。
当前位置:网站首页 新闻资讯使用robots.txt文件来控制对网站的索引
使用robots.txt文件来控制对网站的索引
编辑:八桂网讯    时间:2009/5/1    浏览:1630
八桂网讯 认为创建robots.txt文件的最简单的方式就是使用网管工具中的robots.txt工具.一旦创建了文件,就可以使用分析robots.txt工具来确认是否一切运行正常。
当创建了robots.txt 文件后,将它命名为robots.txt并保存到域名下面。这就是搜索引擎程序将检查文件的地方,如果保存到其它地方,将可能找不到。
也可以自己手工创建robots.txt 文件,使用任何文本编辑器就可以. 应该是一个ASCII类型的文本文件,而不是HTML文件,另外文件应该用小写字母。
句法规则
最简单的robots.txt 文件有两个主要的规则:
User-agent: 应用到robot上的规则
Disallow: 想阻止的URL
以上的两点是文件当中的条目,也可以添加一些其它的条目进来.
用户规范下应该放哪些呢?
User-agent是一个特定的搜索引擎机器程序.在web robots database 那列有很多的常见的robots。可以设置一个条目将其应用到特定的robots(通过列名的方式),或者也可以应用到所有的此类robots 看如下例子:
User agent: *Google 使用几个不同的robots 程序.(user-agents),Google 所使用的进行网页搜索的robots 是Googlebot。其它的一些bots 例如Googlebot-Mobile 和Googlebot-Image 也遵循哪些设置给Googlebot 的规则, 但是你也可以给他们设置其它的一些单独的规则。
Disallow 下面该列出哪些呢?
Disallow 条目下列出那些你想阻止的页面,可以列出一个特定的URL 或者是一个样式. 此类条目以前向划线(/)开始.
阻止正个站点,使用前向划线.
Disallow: /
阻止某个目录或者此目录下的所有内容, 在目录名后面加前向划线。
阻止一个页面,列出此页面. 如:
Disallow: /private_file.html
从Google图片搜索中移除某个特定的图片
添加如下:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
从Google图片搜索中移除所有的图片,如下:
User-agent: Googlebot-Image
Disallow: /
阻止某个特定类型的文件(如gif文件),使用如下:
User-agent: Googlebot
Disallow: /*.gif$
阻止站点上某些页面被搜索引擎收录,但是仍然显示站点投放广告,
除了Mediapartners-Google之外的所有其他bot. 这可以阻止页面在搜索引擎的搜索结果中显示出来,但是mediapartners-Google bot 程序来分析页面从而决定哪些广告可以显示。mediapartners-Google bot 不同其它的Google user-agents共享页面.比如:
User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
注意一点就是检测程序都是很敏感的. 比如说过, Disallow: /junk_file.asp将可能阻止http://www.example.com/junk_file.asp,但可能允许http://www.example.com/Junk_file.asp 这个页面的显示.
样式匹配
Googlebot (but not all search engines) respects some pattern matching.
Googlebot(但并不是所有的搜索引擎)尊重一些样式匹配.
匹配一系列的字符,使用型号符(*)
比如,阻止所有的以private开头的子目录
User-agent: Googlebot
Disallow: /private*/
阻止所有的以private包含问号的子目录( 或更具体,所有的以你的域名开头的地址,接下来是字符串,然后是问号,又接着字符串)
User-agent: Googlebot
Disallow: /*?
指定对URL末尾的匹配,使用$. 比如, 阻止以xls结尾的URL
User-agent: Googlebot
Disallow: /*.xls$
也可以配合使用allow指令来使用这个样式匹配. 比如:
如果一个? 表示某个session ID,你将可能想除去所有的包含它的地址以确保Googlebot 不去收录重复的页面. 但是以问号(?)结尾的文件可能就是你想包含的页面.在这种情况下,你可以按如下设置robots.txt 文件:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *? 指令将会阻止所有的包含? 的网页(更具体点,那些以你的域名开头的,然后是其它字符串,接下来是问号和其它字符串)
The Allow: /*?$ 指令允许所有的以?结尾的页面.(更具体点,以域名开头的,接字符串再加问号结尾的)
八桂网讯 爱伦文化 深圳外语培训 招商加盟 迪优目录 广西旅游365 八桂大地 建站导航网 南宁创意雕塑 双成纸管
八桂网讯-高端网站建设专家
Copyright © 2004- 八桂网讯网络技术有限公司 Baguidadi Inc. All Rights Reserved.