展现最优质内容 正确配置Robots文件

作者:佚名 来源:互联网 时间:2009-01-14 17:13:00 

核心提示: 一个网站要建立好良好的形象,必定要“扬长避短”。通过robots.txt来限制蜘蛛的爬行页面,不让蜘蛛爬行质量比较低劣的网页。


Google,雅虎,微软就合作共同遵守统一的Sitemaps标准,又宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。

三家都支持的robots文件记录包括:

Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:

User-agent: *

Disallow: /

Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

User-agent: *

Disallow: /ab/

Allow: /ab/cd

$通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

User-agent: *

Allow: .htm$

*通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:

User-agent: *

Disallow: /*.htm

Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:

Sitemap:


标签:
0
投稿

猜你喜欢

  • 什么是合理的网站关键字

    2008-06-11 12:39:00
  • 教你如何查看要注册的域名有过不良记录

    2008-11-16 18:52:00
  • 虎年首更新 WordPress 2.9.2简体中文版发布

    2010-02-20 12:54:00
  • 修改discuz兼容自己开发的通行证

    2009-07-12 18:43:00
  • 网络通断,请DNS服务器“作主”

    2010-02-20 19:24:00
  • 链接优化中的小细节:地址格式一定要统一

    2008-12-23 10:03:00
  • 简单几招,安全“护驾”DHCP服务器

    2010-03-29 18:46:00
  • 病毒式网络营销五个引爆点 把网站传染出去

    2009-02-17 10:00:00
  • 如何提升网站的链接广泛度

    2008-06-30 12:42:00
  • 手机上网将成日常必需品 WAP2.0站长

    2008-05-21 12:22:00
  • 微软的告诫:建设链接的真相就是没有捷径

    2008-12-10 09:45:00
  • 获得IXwebhosting域名转移码教程

    2010-03-25 09:44:00
  • SSL证书是什么?有什么用?

    2010-04-07 13:01:00
  • 根据Web服务器记录来追击黑客入侵

    2007-08-23 13:38:00
  • 使用web.config显示GoDaddy的windows主机的详细错误

    2010-04-08 12:46:00
  • 方兴东:IT网站没有明天,也没有未来

    2008-02-01 08:43:00
  • 搜索引擎优化之长尾关键词理论及实战

    2007-10-22 13:16:00
  • 英文站经验分享 英文站者必看!

    2007-11-10 18:34:00
  • web集群服务的负载均衡方案选择与实现

    2010-04-04 18:39:00
  • 美图秀秀周年特别版新功能 特效篇

    2009-10-14 17:14:00
  • asp之家 网站运营 m.aspxhome.com