屏蔽百度爬虫的方法
作者:williamlong 来源:月光博客 时间:2009-04-08 12:42:00
在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。
在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:
User-agent: Baiduspider
Disallow: /
但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。
方法1:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]
方法2:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。
标签:淘宝,百度,屏蔽
0
投稿
猜你喜欢
Linux编译LVGL仿真器出错问题解决
2023-07-10 11:18:10
Twitter创始人斯通:发展着眼40亿手机用户
2009-11-20 10:21:00
微博发展面临桎梏 与手机结合或是未来的方向
2010-03-08 10:45:00
google adsense收入实战测试手记
2009-09-25 10:55:00
Apache服务器配置全攻略
2008-04-18 10:26:00
iis无法启动,发生意外错误0x8ffe2740 解决方法
2008-01-31 13:45:00
保持论坛气氛 女站长让小流量地方站成功!
2008-12-10 10:24:00
从PR值到TR值 由外到内的谷歌权重
2011-09-07 10:41:10
深入浅析Linux轻量级自动运维工具-Ansible
2022-11-15 22:33:54
CentOS上搭建Nginx+Mono运行asp.net环境的配置方法
2022-03-02 10:00:00
在VMware上创建虚拟机及安装Redhat Linux操作系统(图文教程)
2023-11-04 10:32:42
网络赚钱找准自己的方向
2009-08-10 18:27:00
全面提高FTP服务器的安全性能
2009-08-24 11:09:00
Google Adsense西联汇款问题解答
2010-05-10 10:25:00
新手搜索优化进阶你还应该知道的 关于谷歌
2008-12-10 12:09:00
利用DDOS攻击 网络安全公司大赚其钱
2007-08-06 17:08:00
VMware ESXi 6.0 及部署虚拟机安装教程(图文)
2022-08-24 04:34:56
Access数据库防下载讨论
2008-04-18 12:49:00
Twitter发展史:从纸上创意到10亿美元估值
2009-10-09 09:10:00
教你怎样快速提高网站流量?
2008-11-21 12:20:00