搜索引擎的工作原理
作者:陈翩 来源:陈翩的blog 时间:2007-08-08 16:45:00
众所周知,搜索引擎搜索会显示付费结果和自然排名的结果,但这些结果是怎么样显示在大家的面前的呢?
大家先回忆一下,我们是如何搜索的?
“输入搜索关键字--通过搜索索引库匹配搜索关键字--按照标题,描述,url的相关程度进行匹配--显示搜索结果”
这里,我们需要了解的是搜索引擎是如何在索引库里面匹配搜索关键字,标题,描述,url要达到怎样的相关性,显示结果是如何来排序的。
在解答上面问题之前,我们还要清楚搜索引擎是如何收录网页的?
通俗一点讲,搜索引擎蜘蛛Speider会根据网站的活跃度来定时的访问世界各个地方的网页,去除标签,留下文本,并给这个网页一个独一无二的编号,最后在搜索库中建立记录,存有网页上每个关键词和内容。
如果收录的网页上面有链接,搜索引擎蜘蛛还会顺着这些链接继续收录更多相关的网页,在社会心理学中有一个很著名的理论,叫六度空间理论:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。我相信这个理论同样适合于搜索引擎收录网页上面,搜索引擎蜘蛛通过带有链接的网页能收录到世界上任何一个网页。
有了网页,索引库就建立起来了,但这还远远不够,搜索引擎还需要匹配搜索关键字。
没有人能知道用户会用怎样的方式来搜索,就中文来讲,有人会用拼音来代替汉字搜索,有人会不小心打出了错别字,有些词序可能与索引库保存的不一样,胡宝介blog的“黑莓手机vs黑霉手机vs黑梅手机”就很好的说明了这些问题,但搜索引擎技术在不断进步,google的智能纠错功能,baidu的拼音识别功能,检查词序功能......无疑给用户带来很大的方便。
通过这些技术,关键词匹配已经完成,但显示结果是如何来排序的呢?
这又涉及到一个老生常谈的话题了,也是关于网站优化最重要的三个部分:网站的结构、布局、内容。
结构:url是动态还是静态的?辅助导航设计是否合理?......
布局:是table布局还是div+css布局?内容的放置是否合理?......
内容:内容的编辑是否有关键字意识?标题、描述设计是否合理?关键字是否经过分析研究策划过?......
搜索引擎根据这些内容的相关性做出合理的排序。于是我们就看到了展现在我们眼前的搜索排序后的结果。