帝国cms采集图文教程(中)

时间:2012-03-12 20:26:52 

上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。帝国的内容分页形式有两种:(1)全部列出式(2)上下页导航式,但是这两种内容分页形式有什么区别,采集内容分页时该用哪种,官方说得比较模糊,对此有些同学感到很头大,好的,我们先看下例子:

一、全部列出式

全部列表式只需看第一页的页面HTML代码,这一页的所有分页链接都列出来了。

1、我们以“中华网内容分页(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”为例:

可以看到这条新闻总共有3条分页。

2、查看源代码:

这一页里除了已经采集到的第1条分页外,还包括了第2条和第3条分页,所有的分页都列出来了。

3、取得 分页区域正则([!--smallpageallzz--]):

4、取得 分页链接正则([!--pageallzz--]):

二、上下页导航式

上下页导航式是分页采集的难点,他需要所有页面都符合分页正则才行,在不熟悉的情况下,我们可以用第1页和第2页的代码来进行对比分析然后确定分页正则。

1、我们以下网站的内容分页为例:

可以看到这条新闻总共有20条分页。

2、查看源代码:

标签:帝国cms,采集,教程
0
投稿

猜你喜欢

  • 英国网游开“网眼” 借监控探头抓坏人赚钱

    2009-10-09 09:02:00
  • 建站半年过程和经验分享

    2009-03-11 17:42:00
  • 深度剖析百度定位广告 广告只给需要的人

    2009-02-11 13:05:00
  • 拒绝攻击 万能Asp防注入代码

    2007-09-18 14:28:00
  • 糟糕的网站用户体验最高境界

    2007-11-02 00:03:00
  • 马化腾:腾讯看走眼的很多 不止YouTube

    2008-01-13 19:09:00
  • Google利用用户搜索关键词历史提高广告针对性

    2008-06-29 15:26:00
  • PHPWind v7.3.2“引用”的返回链接如果链接到主题部分出错

    2009-05-31 17:09:00
  • 视频网站下一步

    2009-10-24 14:55:00
  • Linux环境架设Samba服务器 实现网络互访

    2008-10-10 11:05:00
  • 百度技术牛人廖若雪详解大学生择业三大要诀

    2009-10-15 16:37:00
  • 分析师称上网本和Office将影响微软业绩

    2009-10-24 13:55:00
  • Win10 安装Linux ubuntu-18.04双系统(安装指南)

    2023-12-13 12:29:41
  • 中文域名加邮箱 企业推广新思路

    2009-05-24 12:34:00
  • ASP漏洞分析和解决方法

    2008-10-30 13:35:00
  • Linux常用命令mkdir详解

    2023-08-17 23:02:27
  • 网站改版前需要注意的几个问题

    2009-02-01 18:28:00
  • 使用nginx实现网站负载均衡测试实例

    2009-11-19 11:46:00
  • WordPress评论表情启用以及自定义表情

    2011-09-07 17:13:54
  • 在serv-u中隐藏你的帐号

    2007-10-18 13:47:00
  • asp之家 网站运营 m.aspxhome.com