如何控制Yahoo! Slurp蜘蛛的抓取频度
时间:2012-03-20 21:52:20
上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?
我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。
剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:
User-agent: *
Crawl-delay: 10
我推荐使用 User-agent: * 万一有其他引擎逐步也支持这个配置呢,而不支持这个配置的引擎也会跳过这句。
可实际上我从自己网站的日志中看到:Slurp的压力却不止10秒一次,原因是这样:雅虎美国和雅虎中国有2套蜘蛛在运行,因此实际的访问可能是这样:
1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
但是实际上我看到的雅虎的蜘蛛是分布在很多台服务器上的:而多个服务器集群之间也是不相互协调同一网站的抓取频度的
1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.1 30/Jun/2006:00:00:23 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:27 Yahoo! Slurp China
我统计了一下:Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
给豆瓣推荐的Crawl-delay: 100 平均2.5秒访问一次,应该没有问题了。
另外,雅虎搜索的帮助中心刚刚改版,专门增加了站长专区,可以去看看。
注:我查了一下Slurp的意思,就是咂吧嘴的声音,发音听着很像在吃面条吧?
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
影响搜索引擎不收录16大因素
开放重定向:您的网站有没有被恶意地利用
马克斯CMS2.0beta (maxcms)SQL注入漏洞
支付宝与旅游景区合作 加速旅游电子商务化进程
网上安家步步高;ADSL建站初探
![](https://img.aspxhome.com/file/UploadPic/20104/14/blank-74s.gif)
反击网页挂马 潜伏在图片中的害群之“马”
百度收录减少原因分析 百度快照更新心得
如何在Discuz!7.0论坛中发布多媒体内容
![](https://img.aspxhome.com/file/UploadPic/20097/12/2009712191615329.jpg)
图文说明KesionCMS V6伪静态的设置安装方法
![](https://img.aspxhome.com/file/UploadPic/20098/29/1722070-60s.png)
网站开发不要迷信生成静态页
龚文祥:B2C几乎全行业亏损
关于博客站点进行搜索引擎优化的五个要点
浅析Windows2003的两种快速自动登录捷径
站长搜索管理必备:10个SEO常用查询指令
Linux中让Tomcat5自动启动服务脚本
计算机学生,学会建站的11个理由
Godaddy注册后域名解析怎么设置
![](https://img.aspxhome.com/file/UploadPic/20108/12/033010_0902_godaddy1-12s.png)
V5shop引领独立网商成功的五个层次
Google任命瑞斯为美国新显示广告销售主管
![](https://img.aspxhome.com/file/UploadPic/200911/2009112913327439s.jpg)
正确管理SNS:让网站逃过反低俗整治一劫
![](https://img.aspxhome.com/file/UploadPic/20092/2009219191813585.jpg)