分词与索引库

来源：SEM 一言之家时间：2009-09-22 15:17:00　

分词是很多做SEO的人常听到的概念，为了让大家在这个方面不会有疑惑，现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。

搜索引擎每天都是在处理一个基本的需求：用户搜索一个关键词，搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢？下面就分步来了解这个过程。

首先搜索引擎要尽可能多的把互联网上的网页搜集下来，这样能提供大量的网页给用户查询。这一部分由爬虫来解决，顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状，最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL，整个网页的HTML代码，网页标题等等信息。

然后，搜索引擎拿到用户输入的这个关键词后，要从这个资料库里把相关的网页找出来给用户。这里就碰到好几个问题了：

1，要怎么快速的从上100亿个网页里找出匹配的网页的呢？

要知道这是从上百亿的网页里找符合这个关键词内容的网页，如果像用word里那种用ctrl + F 轮询的查找方式的话，即使用超级计算机，也不知道要消耗多少时间。但是现在的搜索引擎，在几分之一秒里就实现了。所以一定是做了一些处理才实现的。

解决办法也倒简单，就是建立一份索引库。就像我们查《新华字典》一样，我们不会翻遍《新华字典》的每一页来查那个字在哪页，而是先去索引表那里找这个字，拿到页码后，直接翻到那页就可以了。搜索引擎也会为上百亿的网页建立一个索引库，用户查询信息的时候，是先到搜索引库里查一下要找的信息在哪些网页，然后就引导你去那些网页的。

如下图：

索引库

2，索引库里用什么样的分类方式？

我们知道，《新华字典》的索引表是用字母列表或者偏旁部首的分类方式的。那么搜索引擎的索引库里是怎么分类的？是不是也可以用字母列表的方式？

搜索引擎如果以字母列表的方式排列索引库，那么平均每个字母下要查询的网页数量是 100亿÷26＝3.85亿，也还是一个很大的数字。而且搜索引擎上，今天是100亿个网页，过不了多久就是300亿个网页了。

2 3 下一页

标签：搜索引擎,分词,索引库

投稿

分词与索引库

猜你喜欢

利用canonical属性再次加强网页权重

十点技巧保障您的网站安全

商家在网店低价出售盗版书淘宝网不担责

详解Linux中几个获取硬件详细信息的命令

英文站经验分享英文站者必看！

更换WordPress模板前应该注意的24个问题

IE8与IE7共存的两种方法

地方论坛推广运营经验分享

怎么提高eCPM的常用技巧

详解CentOS 6.4 添加永久静态路由所有方法汇总

Discuz! 7.1：热点话题聚焦社区热点信息

Apache简介及安全配置方案

警报:IIS现漏洞国外数万服务器受攻击

搜狗下一代概念输入法：搜狗云输入法正式发布

简单讲义：关于网站的站外优化

在虚拟机virtualbox中安装ubuntu的图文教程

安全人员揭短谷歌Android再曝两处新漏洞

服务器技巧关于虚拟机管理重要启示

纯中文“.中国”域名会走多远

访中国最大Web开发社群蓝色理想—蓝色

分词与索引库

猜你喜欢

利用canonical属性再次加强网页权重

十点技巧保障您的网站安全

商家在网店低价出售盗版书 淘宝网不担责

详解Linux中几个获取硬件详细信息的命令

英文站经验分享 英文站者必看！

更换WordPress模板前应该注意的24个问题

IE8与IE7共存的两种方法

地方论坛推广运营经验分享

怎么提高eCPM的常用技巧

详解CentOS 6.4 添加永久静态路由所有方法汇总

Discuz! 7.1：热点话题聚焦社区热点信息

Apache简介及安全配置方案

警报:IIS现漏洞 国外数万服务器受攻击

搜狗下一代概念输入法：搜狗云输入法正式发布

简单讲义：关于网站的站外优化

在虚拟机virtualbox中安装ubuntu的图文教程

安全人员揭短 谷歌Android再曝两处新漏洞

服务器技巧 关于虚拟机管理重要启示

纯中文“.中国”域名会走多远

访中国最大Web开发社群蓝色理想—蓝色

商家在网店低价出售盗版书淘宝网不担责

英文站经验分享英文站者必看！

警报:IIS现漏洞国外数万服务器受攻击

安全人员揭短谷歌Android再曝两处新漏洞

服务器技巧关于虚拟机管理重要启示