Google开始研究Web中的结构化数据

来源:cnbeta 时间:2009-02-03 12:46:00 

互联网的搜索引擎们把主要精力都放在采集web页面的文本信息上,但是google却在研究如何分析和组织结构化数据方面小有所成,该公司的一位科学家上周五表示.

“在web之外存在着大量的结构化数据,但我们却并没有很好地将这些数据展示给用户.”在马萨诸塞州技术研究院举行的新英格兰数据库日会议中,Alon Halevy在一次谈话中这样说道.Halevy还谈到了所谓的“深Web”源,比如为 Cars.com 或者 Realtor.com这类表单驱动型网站做后台支撑的数据库资源.Google一直都在不停的向各种表单提交查询请求,然后对返回的结果进行分析,最后 将有用的内容加入到索引当中.

但是该公司仍然希望web站点们能够将数据存放到结构化的表格中供google分析,Halevy说,例如在web页面上提供一个表格列举出历任美国总统.

但是这样的表格也是数量巨大的,据Halevy说,google的索引中已经收录了140亿个.他“很快就意识到其中有超过98%的内容是用户不感兴趣的,”但即使经过了仔细的筛选之后,仍然有1亿5400万个表格值得被google索引.

Google的一个终极目标就是把一个搜索请求的结果组织成“各个方面”返回给用户,特别是像“越南旅游”这种比较宽泛的关键字,而不是“越南人口”这种非常具体的关键字,Halevy说,前面的搜索请求可能会产生关于签证条件、气候、旅行团等这类信息.

Kosmix已经在做这个点子了,但是google将会做的更多,Halevy说,“Kosmix的确能够展示出'方面',但是它依赖于特定的信息源.”

在Kosmix上搜素“越南旅游”,它会给你提供一个结果集,包括纽约时报关于酒店的评论,来自雅虎和Flickr的图片,来自Shopping.com的购物信息以及来自google的其他信息.

“而我们则不同,各方面信息都来自于web的搜索结果,但会以不同的方式组织起来.”Halevy说.

标签:google,web,数据,搜索
0
投稿

猜你喜欢

  • 博客如何选择国外虚拟主机

    2008-01-03 14:18:00
  • 自拍达人首选 几款免费大头贴软件推荐

    2009-11-23 16:23:00
  • Facebook修改开发政策 影响应用程序70%流量

    2009-10-30 11:22:00
  • 解决xampp自启动和mysql.sock问题

    2023-07-05 12:18:31
  • PHPWIND论坛无法登陆,后台无法显示等奇怪问题

    2009-02-19 19:56:00
  • 在VMware上创建虚拟机及安装Redhat Linux操作系统(图文教程)

    2023-11-04 10:32:42
  • 回顾我的艰辛网络生涯

    2008-11-25 12:30:00
  • 08年,个人站长赚钱将更加困难

    2008-02-21 12:18:00
  • 熬夜的电脑族吃什么食物对眼睛好

    2007-10-13 09:41:00
  • 命令行模式修改文件夹的访问及共享权限

    2008-12-08 14:40:00
  • 浅谈木马的十大潜伏诡招

    2008-11-16 20:58:00
  • 中英网站的Google PR差距

    2007-11-05 18:47:00
  • 更换apache到nginx的操作过程全记录

    2008-07-30 18:05:00
  • 谷歌官方:让垃圾留言远离您的网站和用户

    2008-12-31 18:40:00
  • nginx如何配置x-forwarded-for头部

    2023-06-13 23:09:10
  • Zabbix监控交换机设置方法

    2022-12-25 11:56:23
  • 帝国、PHPCMS及织梦对比(一):自定义模型功能分析

    2011-08-26 13:01:54
  • 使用Docker部署打包发布springboot项目

    2023-05-01 02:45:51
  • 在 Ubuntu 中使用 NTP 进行时间同步设置

    2023-07-30 07:43:58
  • 支持开源 英特尔为云计算提供测试平台

    2009-10-12 13:47:00
  • asp之家 网站运营 m.aspxhome.com