不是那么一回事 中文搜索引擎的十大误区(2)
作者:佚名 来源:医学园地 时间:2008-12-14 07:21:00
误区6、中英文混合检索词是不被支持的
当你输入“MP3” 时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;更多的网页搜索服务不能对“甲A”、“F-1一级方程式”等中英混合查询作出恰当的反应。然而搜索技术并非对此无能为力,百度搜索就完全解决了中英文混查的问题。
误区7、中文搜索引擎的相关性无法与英文相媲美
中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。中文搜索的相关性完全可以与英文媲美。百度搜索使用了目前国际上先进的搜索引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜索的相关性问题。
误区8、用户要找的信息在网上不存在
目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。另外很多搜索引擎不支持新的中文编码标准,但是却在GBK编码中可以找到。所以许多网上存在的信息在当前的主要搜索引擎中无法找到很可能是因为您用的搜索引擎不好,而不是因为您要找的信息在网上不存在。
误区9、搜索引擎数据更新最快要30天
对于那些依靠海外服务器提供检索的网站来说,这也许是对的;网易掌门丁磊辞职的消息传出后的三个星期内,各大门户网站的网页搜索服务都无法查到任何相关的网页。但这绝不是说及时更新数据是做不到的。百度搜索就巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。
误区10、搜索引擎不能查找动态生成的网页
目前世界上没有一家主要的搜索引擎支持动态页,因为大多数负责搜索网页的蜘蛛软件不敢去碰动态页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态页生成工具乃是大势所趋,ASP、 PHP、 JSP 等编程工具日益流行,解决动态页查找的问题已经是人心所向。