robots.txt使用技巧

作者：小可来源：doumiao.net 时间：2008-04-28 13:06:00　

robots.txt文件的功能非常有限，它并不能诱使蜘蛛在你的网站上花费更多的时间或者访问更多的页面。但如果你知道robots.txt的一些使用技巧，你可以更大的发挥robots.txt文件的作用。

1. 每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt。

2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如：大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

下面是VeryCMS里的robots.txt文件：
User-agent: *
Disallow: /admin/   后台管理文件
Disallow: /require/   程序文件
Disallow: /attachment/ 附件
Disallow: /images/     图片
Disallow: /data/       数据库文件
Disallow: /template/   模板文件
Disallow: /css/       样式表文件
Disallow: /lang/      编码文件
Disallow: /script/    脚本文件

3. 如果你的网站是 * 页，并且你为这些 * 页创建了静态副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免 * 页被蜘蛛索引，以保证这些网页不会被视为含重复内容。

4. robots.txt文件里还可以直接包括在sitemap文件的链接。

目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

5. 合理使用robots.txt文件还能避免访问时出错。比如，不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

标签：robots.txt,技巧,蜘蛛,服务器

投稿

robots.txt使用技巧

猜你喜欢

DNS系统出错瑞典互联网络昨晚瘫痪一小时

Google工程师解释Googlebot抓取网页的原理

教你如何使用反盗链技术

利用virtualbox虚拟机实现端口转发

2008年站长之路该如何走

Linux内存管理和寻址详细介绍

10月Twitter美独立访问用户1920万环比跌7.9％

UCHome通过开放平台增加QQ好友邮件邀请功能

详解CentOS7用阿里云Docker Yum源在线安装Docker 17.03.2

网站主要状态页细解以及与搜索引擎的关系

comScore称：9月微软网站全球访问人气最高

工作难找何不加入“人肉营销”

Microsoft Windows 2003集群攻略

禁用WordPress 3.0自动草稿存档

成功站长要做到的几个坚持

CentOS 7中 Minimal 安装JDK 1.8的教程

中英网站的Google PR差距

Docker使用Dockerfile创建支持ssh服务自启动的容器镜像

站长必备工具谷歌网站管理员工具详细介绍

新手指导：Google Adsense 付款流程详解

robots.txt使用技巧

猜你喜欢

DNS系统出错 瑞典互联网络昨晚瘫痪一小时

Google工程师解释Googlebot抓取网页的原理

教你如何使用反盗链技术

利用virtualbox虚拟机实现端口转发

2008年站长之路该如何走

Linux内存管理和寻址详细介绍

10月Twitter美独立访问用户1920万 环比跌7.9％

UCHome通过开放平台增加QQ好友邮件邀请功能

详解CentOS7用阿里云Docker Yum源在线安装Docker 17.03.2

网站主要状态页细解以及与搜索引擎的关系

comScore称：9月微软网站全球访问人气最高

工作难找何不加入“人肉营销”

Microsoft Windows 2003集群攻略

禁用WordPress 3.0自动草稿存档

成功站长要做到的几个坚持

CentOS 7中 Minimal 安装JDK 1.8的教程

中英网站的Google PR差距

Docker使用Dockerfile创建支持ssh服务自启动的容器镜像

站长必备工具谷歌网站管理员工具详细介绍

新手指导：Google Adsense 付款流程详解

DNS系统出错瑞典互联网络昨晚瘫痪一小时

10月Twitter美独立访问用户1920万环比跌7.9％