信息过量抓取有限:谈搜索引擎相关性技

作者:思亿欧 来源:seo.com.cn 时间:2008-11-12 11:28:00 

相关性,是搜索引擎优化中的重点。但是对于相关性的搜索引擎工作原理,相信大部分的SEOER对于都缺乏了解。但是只需要我们主流搜索引擎技术的方向,你就可以知道搜索引擎时代的脉搏。

相关度,排序技术的产生主要是由搜索引擎的特点决定的。

首先,现代搜索引擎能够访问的Web网页数量已经达到上十亿的规模,哪怕用户只是搜索其中很少的一部分内容,基于全文搜索技术的搜索引擎也能返回成千上万的页面。即便这些结果网页都是用户所需要的,用户也没有可能对所有的网页浏览一遍,所以能够将用户最感兴趣的结果网页放于前面,势必可以增强搜索引擎用户的满意度。

其次,搜索引擎用户自身的检索专业能力通常很有限,在最为普遍的关键词检索行为中,用户一般只是键人几个词语。例如,Spink等曾对Excite等搜索引擎的近300位用户做过实验调查,发现人均输入的检索词为3.34个。国内部分学者也有相似的结论,发现90%左右的用户输入的中文检索单字为2~6个,而且2字词居多,约占58%,其次为4字词(约占18%)和3字词(约占14%)。

过少的检索词事实上无法真正表达用户的检索需求,而且用户通常也不去进行复杂的逻辑构造,只有相当少的用户进行布尔逻辑检索、限制性检索和高级检索等方法,仅有5.24%的检索式中包含有布尔逻辑算符。

国内的部分学者的研究结果也表明,约40%的用户不能正确运用字段检索或二次检索,80%左右的用户不能正确运用高级检索功能,甚至还发现用户缺乏动力去学习复杂的检索技能,多数用户都寄希望于搜索引擎能够自动地为他们构造有效的检索式。由于缺乏过去联机检索中常常具备的检索人员,因此,用户实际的检索行为与用户理想的检索行为存在事实上的差距,检索结果的不满意也是不奇怪的。正是由于这个特点,搜索引擎就必须设法将用户最想要的网页结果尽可能地放到网页结果的前面,这就是网页相关度排序算法在搜索引擎中为什么非常重要的原因。

标签:搜索引擎,PageRank,原理,排序
0
投稿

猜你喜欢

  • Comsenz推出论坛游戏插件“Yes玩”帮助站长赢利

    2008-10-13 20:25:00
  • 百度更新时间一览

    2007-12-07 18:53:00
  • 去除网页文字干扰码的两种方法

    2008-01-23 17:15:00
  • ICP备案常见问题集锦

    2008-03-12 12:00:00
  • 淘宝日交易额6.26亿 创国内网购交易新纪录

    2009-10-13 09:47:00
  • 博客如何选择国外虚拟主机

    2008-01-03 14:18:00
  • Joomla教程:在单篇文章页面中显示指定的模块

    2010-03-23 15:07:00
  • 30+提高wordpress用户访问量的插件

    2011-10-12 21:03:40
  • 百度知道测试转移分类权限 12日将正式发放

    2009-10-09 09:36:00
  • 网站需要多少成本

    2010-01-25 12:30:00
  • Godaddy的windows主机支持PHP吗?

    2010-04-16 13:12:00
  • 谈跨站脚本攻击与防御

    2010-02-21 11:36:00
  • 《商业大亨》进军马来西亚 香港无线小生助威

    2009-11-20 11:56:00
  • 如何添加google字体到你的wordpress主题

    2011-12-07 11:12:45
  • GoDaddy域名及虚拟主机介绍

    2010-04-20 13:12:00
  • V5shop多用户商城系统——v5mall宣布免费

    2009-11-21 12:08:00
  • 利用博客写英文评论赚钱

    2009-05-27 01:20:00
  • 侃侃网站产品与网站运营

    2009-11-16 12:26:00
  • 站长法则一:得百度者得天下

    2008-09-19 20:52:00
  • IIS状态代码的含义

    2007-11-20 12:26:00
  • asp之家 网站运营 m.aspxhome.com