网页抓取优先策略

作者:杨帆 来源:杨帆网站策划博客 时间:2008-01-18 13:14:00 

网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?


重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。

定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:


I(P)=a*IB(P)+β*IL(P)


平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。


尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

标签:链接,抓取,搜索,url
0
投稿

猜你喜欢

  • 百度成立客户端部 原客户端软件部负责人调岗

    2010-03-08 13:14:00
  • 在WIN2000系统下安装JSP服务器

    2008-10-22 11:27:00
  • 个性LOMO效果 轻松打造坠落天使

    2009-10-14 17:13:00
  • 十个最常用的增加外链的方法

    2009-02-12 10:40:00
  • 小站长推广网站葵花宝典

    2009-06-16 15:34:00
  • Linux7.7设置交换分区SWAP的方法

    2023-10-16 23:49:41
  • 博客内容组织策略

    2008-12-02 16:20:00
  • Windows2003服务器安装及设置教程—软件安装与设置篇九—Zend Optimizer安装图解

    2010-01-31 17:05:00
  • CentOS7 + node.js + nginx + MySQL搭建服务器全过程

    2023-07-19 13:41:10
  • 服务器FTP站点的建立与维护[图]

    2007-10-31 19:01:00
  • CentOS7如何修改SSH登录端口

    2022-01-16 02:01:01
  • GoDaddy:如何创建新目录

    2010-05-01 13:11:00
  • Google推出中文AdSense for Mobile

    2007-09-19 13:25:00
  • vmware esxi6.5安装使用详细步骤

    2023-10-05 06:28:42
  • 清晰图解:用博客申请Google adsense

    2009-02-01 14:01:00
  • 风讯宣布FOOSUNCMS系列产品免费

    2007-09-23 08:04:00
  • 网络文化热点排行榜出炉 贾君鹏开心网上榜

    2009-10-13 13:34:00
  • linux服务器出现严重故障后的处理办法

    2012-02-25 20:15:13
  • VMware vSphere ESXi系统设置静态IP的方法

    2023-11-04 06:20:25
  • Adsense轻松学优化 (1) – “大”一点更好

    2008-11-06 17:46:00
  • asp之家 网站运营 m.aspxhome.com