屏蔽百度爬虫的方法

作者:williamlong 来源:月光博客 时间:2009-04-08 12:42:00 

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider 
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC] 
RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
<Limit GET POST> 
Order Allow,Deny 
Allow from all 
Deny from env=bad_bot 
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

标签:淘宝,百度,屏蔽
0
投稿

猜你喜欢

  • Linux编译LVGL仿真器出错问题解决

    2023-07-10 11:18:10
  • Twitter创始人斯通:发展着眼40亿手机用户

    2009-11-20 10:21:00
  • 微博发展面临桎梏 与手机结合或是未来的方向

    2010-03-08 10:45:00
  • google adsense收入实战测试手记

    2009-09-25 10:55:00
  • Apache服务器配置全攻略

    2008-04-18 10:26:00
  • iis无法启动,发生意外错误0x8ffe2740 解决方法

    2008-01-31 13:45:00
  • 保持论坛气氛 女站长让小流量地方站成功!

    2008-12-10 10:24:00
  • 从PR值到TR值 由外到内的谷歌权重

    2011-09-07 10:41:10
  • 深入浅析Linux轻量级自动运维工具-Ansible

    2022-11-15 22:33:54
  • CentOS上搭建Nginx+Mono运行asp.net环境的配置方法

    2022-03-02 10:00:00
  • 在VMware上创建虚拟机及安装Redhat Linux操作系统(图文教程)

    2023-11-04 10:32:42
  • 网络赚钱找准自己的方向

    2009-08-10 18:27:00
  • 全面提高FTP服务器的安全性能

    2009-08-24 11:09:00
  • Google Adsense西联汇款问题解答

    2010-05-10 10:25:00
  • 新手搜索优化进阶你还应该知道的 关于谷歌

    2008-12-10 12:09:00
  • 利用DDOS攻击 网络安全公司大赚其钱

    2007-08-06 17:08:00
  • VMware ESXi 6.0 及部署虚拟机安装教程(图文)

    2022-08-24 04:34:56
  • Access数据库防下载讨论

    2008-04-18 12:49:00
  • Twitter发展史:从纸上创意到10亿美元估值

    2009-10-09 09:10:00
  • 教你怎样快速提高网站流量?

    2008-11-21 12:20:00
  • asp之家 网站运营 m.aspxhome.com