分词与索引库

来源:SEM 一言之家 时间:2009-09-22 15:17:00 

分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。

搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢?下面就分步来了解这个过程。

首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。

然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。这里就碰到好几个问题了:

1,要怎么快速的从上100亿个网页里找出匹配的网页的呢?

要知道这是从上百亿的网页里找符合这个关键词内容的网页,如果像用word里那种用ctrl + F 轮询的查找方式的话,即使用超级计算机,也不知道要消耗多少时间。但是现在的搜索引擎,在几分之一秒里就实现了。所以一定是做了一些处理才实现的。

解决办法也倒简单,就是建立一份索引库。就像我们查《新华字典》一样,我们不会翻遍《新华字典》的每一页来查那个字在哪页,而是先去索引表那里找这个字,拿到页码后,直接翻到那页就可以了。搜索引擎也会为上百亿的网页建立一个索引库,用户查询信息的时候,是先到搜索引库里查一下要找的信息在哪些网页,然后就引导你去那些网页的。

如下图:

索引库

2,索引库里用什么样的分类方式?

我们知道,《新华字典》的索引表是用字母列表或者偏旁部首的分类方式的。那么搜索引擎的索引库里是怎么分类的?是不是也可以用字母列表的方式?

搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页数量是 100亿÷26=3.85亿 ,也还是一个很大的数字。而且搜索引擎上,今天是100亿个网页,过不了多久就是300亿个网页了。

标签:搜索引擎,分词,索引库
0
投稿

猜你喜欢

  • 织梦教育解决方案出炉 迎接教育类网站建站热潮

    2011-09-09 18:57:05
  • Hyper-V Server 2008系统管理实战

    2008-12-08 14:18:00
  • 影响搜索引擎优化效果的四十九个内部因素

    2008-12-12 12:01:00
  • 网络营销无难事:逃走的浏览者

    2009-02-25 18:46:00
  • adsense 广告不显示原因

    2008-02-21 12:34:00
  • 调整Windows参数提高数据库服务器性能

    2009-06-15 10:46:00
  • 华硕进军云运算 开发全球最快超级电脑

    2009-10-29 09:02:00
  • RHEL5下NFS服务器配置与应用

    2008-09-26 16:57:00
  • Godaddy注册后域名解析怎么设置

    2010-04-07 08:58:00
  • WEB服务器系统盘权限简单设置

    2009-07-23 12:09:00
  • 打造绿色社区 论坛关键字屏蔽有窍门

    2009-02-05 16:24:00
  • 网络安全教程:抵御远程访问的入侵

    2009-05-28 08:11:00
  • 一个完美网站的101项指标 第五部分.安全性

    2008-02-29 22:27:00
  • asp后门、asp木马大清理

    2007-10-03 13:52:00
  • 柏袍:中国反软件盗版事业任重道远

    2009-11-23 15:08:00
  • IIS使用十大原则

    2010-04-04 18:16:00
  • SSL证书是什么?有什么用?

    2010-04-07 13:01:00
  • 在Windows 2003中配置ASP.Net环境

    2009-07-23 20:00:00
  • Windows服务器安全设置经验详谈

    2010-03-31 19:03:00
  • 网站流量提高独招 短期与长期方法要并重

    2009-05-08 10:11:00
  • asp之家 网站运营 m.aspxhome.com