Spider与crawler不同点

作者:小左 时间:2008-08-26 11:57:00 

写这篇的动力源于上一篇中反复出现的robots,它让我想起了spider(蜘蛛)与crawler(爬虫)。此二者一样?不一样?

以前就看过一篇文章,说此二者不一样,或是严格说不一样。刚才又在网上搜了搜,大部分意见说此二者一样。这个大部分的意见,我就不在此熬述了,网上找吧,一大堆呢。我就这篇说说“此二者不一样”。对或不对,全当个参考,百家争鸣、百花齐放。

在 WebmasterWorld,曾有过个帖子,谈的就是spider与crawler。帖子开始就有一段叙述:

Search engines consist of five discrete software components:

Spider : a robotic browser like program that downloads webpages.

Crawler : a wandering spider that automatically follows links found on pages.

Indexer : a blender like program that dissects webpages that are downloaded by spiders.

The Database : a warehouse of the pages downloaded and processed.

Search Engine Results Engine : digs search results out of the database.

一句话总结一下它的意思,就是:spider与crawler不一样。

帖子里还有个观点,就是说robots有5种,其名称、作用依次是:spider,下载网页;crawler,顺着内链,访问该链接的另一 端;indexer,收录下载了的网页;datebase,下载了的、处理了的网页的仓库;result engine, 从数据库中找出搜索结果。5种?这个观点,我不知道是否正确,不过至少对我来说,够新颖的。

还有人发言道:

Let's talk about how robots interpret your page for a bit. If I follow Brett's historical topic, you have three different types of robots, a spider, crawler and indexer.

First the Spider comes around and requests the URI. It reads server header information and other on page information. Then the Crawler follows all the links within that domain (those that are found and allowed). Then the Indexer reads the html while making heads and tails of it.

其发言者认为robots有3种:spider、crawler、indexer。一开始是spider根据URI,访问进来,接着,读取服务器的header和网页的head标签。然后,crawler顺着spider发现的网页的内链,去访问该内链的另一端。最后,indexer来读取HTML代码。

大家是怎么看待这个问题呢?希望我这篇能起到抛砖引玉的作用。

标签:spider,crawler,服务器
0
投稿

猜你喜欢

  • 网页游戏路在何方 亟需改变宣传模式

    2009-11-07 12:34:00
  • QQ空间个人中心升级2.0 黄钻LV7优先体验中

    2009-10-28 16:02:00
  • phpwindV6.3关于快速发帖时插入附件弹出空白提示框问题

    2009-02-20 15:41:00
  • 在2003下安装WinWebMail详细攻略

    2008-12-23 16:01:00
  • 基于Linux系统的包过滤防火墙

    2009-09-19 20:21:00
  • 一个草根站长的真实建站经验

    2007-08-18 11:18:00
  • 网站被挂马 ARP地址欺骗解决之道

    2008-01-18 13:17:00
  • VMware kali虚拟机环境配置方法

    2022-04-12 08:52:31
  • GoDaddy:如何创建Google站长管理工具帐户

    2010-04-26 12:49:00
  • 关键词选择与维护教程

    2010-08-05 15:02:00
  • 从一个301重定向案例 看需要注意的地方

    2009-01-09 16:35:00
  • phpcms的友情链接也是可复制模块-新建友情链接模块

    2009-02-19 20:11:00
  • 在VMware中Nat方式设置静态IP的方法

    2022-12-22 02:26:46
  • 让谷歌搜索引擎快速地收录网站的十个要点

    2008-12-14 07:17:00
  • 网易邮箱收不到GoDaddy系统发来的邮件

    2010-04-08 12:40:00
  • linux less命令实例详解

    2023-11-03 07:49:59
  • 巧用UCHome2.0站长推荐功能

    2009-09-11 12:03:00
  • 话说一边做站一边玩网页游戏的N个好处

    2008-11-12 12:32:00
  • 昨天晚上 百度彻底封杀了我的网站

    2008-01-11 19:10:00
  • 个人站长感悟:我们一直在努力

    2008-11-06 12:52:00
  • asp之家 网站运营 m.aspxhome.com