Google工程师解释Googlebot抓取网页的原理

作者:创业基地 来源:中国站长站 时间:2009-02-10 18:04:00 

Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作为Matt Cutts的blog的一名忠实读者,我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性。我想说的是,Matt Cutts在是Google品质管理部门的一名高级软件工程师,外界所知的是他负责研发阻止Spam与恶性控制排名的技术。因此,信不信当然由你。

其实上次Matt所透露的仅仅是其中一方面的内容。今天,Matt再次写了一篇非常详细的文章,解释了Google的各种bot是怎样抓取网页的,以及Google最新的BigDaddy在抓取网页方面有什么新的变化等等,内容非常的精彩,所以和大家分享一下。

首先要介绍的是Google的“crawl caching proxy”(爬行缓存代理)。Matt举了一个ISP与用户的例子来说明它。用户上网时,总是先通过ISP获取网页内容,然后ISP就会把用户访问过的网页缓存起来备用。比如说,当用户A访问了www.wo2080.com,那么中国电信(或网通等)就会把“80后创业基地”发送给用户A,然后将“80后创业基地”缓存起来,当用户B在下一秒钟里再访问www.wo2080.com,那么中国电信就会把缓存里的“幻灭的麦克风”发送给用户B,这样就能节省了带宽。

正如本站之前所报道的那样,Google最新的软件层面的升级(转移至BigDaddy)已经接近完成,因此升级后的Google各方面的能力都将得到加强。这些加强包括了更智能化的googlebot爬行、改良的规范性以及更好的收录网页能力。而在Googlebot爬行抓取网页方面,Google也采取了节省带宽的方法。Googlebot也随着BigDaddy的升级而得到了升级。新的Googlebot已经正式支持了gzip编码,所以如果你的网站开启了gzip编码功能,那么就能节省Googlebot爬行你的网页时所占的带宽。

除了改良的Googlebot外,升级后的Google将会采用上面所说到的crawl caching proxy来抓取网页,以进一步节省带宽。

创业基地SEO频道得知:Google蜘蛛以Googlebot爬行为主,Server A指的是AdSense,而Server N则可以是Google的blogsearch或其它。我们可以看出,同一个网站,Googlebot与AdSense的Mediabot、blogsearch的bot都爬行过了,其中有很多重复的爬行。而升级后的Google所采用的crawl caching proxy又是怎样的情形:

很明显,因为crawl caching proxy将各种bot的抓取都缓存起来,因此当Googlebot已经抓取过某些网页,而Mediabot或其它bot再次抓取重复的网页时,crawl caching proxy就会发挥作用,直接将缓存里的网页返回给Mediabot等,这样就使得实际爬行次数减少,节省了带宽。

从Matt的分析可以看出,Google这样做的确是能节省自己及网站的带宽,好处是能让Google的各种bot在一定的时间里爬行更多的网页,以方便收录。我的理解是,虽然好处是相当明显,但坏处也是有的。比如,当一个网站它以AdSense的广告费为生,那么它就需要AdSense的Mediabot不停地光临,以分析它的更新网页的内容,投放更相关的广告。但当这个网站是一个PR值不错的网站,那么Googlebot很可能会天天都来爬行它,这样一来,crawl caching proxy就会把Googlebot的爬行缓存起来,等Mediabot再来爬行的时候,它就直接把缓存的内容返回给Mediabot。这样一来就减少了Mediabot爬行该网站的次数。由于两种bot并不是采用完全相同的工作机制,因此这个网站有可能因此Mediabot的爬行次数的减少而使得显示的AdSense广告的相关性减弱。

本文来源:创业基地SEO频道 www.wo2080.com 转载请以链接形式注明出处。

标签:Google优化,抓取原理
0
投稿

猜你喜欢

  • linux链接编译详解

    2023-07-02 16:05:11
  • 防范SQL注入漏洞asp代码

    2007-10-07 12:31:00
  • 关于QQ群推广的可行性建议

    2008-07-20 13:26:00
  • 网管员安全训练营--让FTP服务器更安全(1)

    2007-09-14 14:28:00
  • 关键字优化的十大奇招妙技

    2008-04-27 20:22:00
  • 在linux服务器上安装Jenkins

    2023-10-15 17:55:49
  • 微软CEO薪酬减少5.5% 奖金直降50万美元

    2009-09-30 09:14:00
  • 设计有别 英文建站与中文建站注意的细节

    2009-02-05 16:35:00
  • 四步迅速提高网站百度排名

    2008-09-12 15:59:00
  • 查看IIS里每个站点的资源使用情况

    2010-05-04 18:00:00
  • UCenter Home 2.0即将测试 新增六大互动新特性成焦点

    2009-07-17 12:32:00
  • CentOS 6.5平台实现快速部署FTP的方法

    2023-08-06 05:59:28
  • 用Windows Server 2003搭建安全文件服务器(2)

    2007-09-27 13:55:00
  • 关于网站采集 质量和规模的想法

    2007-11-10 18:36:00
  • 我为什么还要做导航站

    2009-07-06 16:19:00
  • 保障Web服务器安全的六个步骤

    2009-07-23 20:00:00
  • 站长需要有基本的矜持:广告不是这么卖的

    2007-09-19 13:08:00
  • 更改windows 2003远程桌面连接的端口

    2010-08-09 21:26:00
  • centos 7系统下安装Jenkins的步骤详解

    2023-07-23 07:29:38
  • 站长应该多多利用的推广方法地毯式推广

    2009-05-24 09:58:00
  • asp之家 网站运营 m.aspxhome.com