帝国cms采集图文教程(中)
时间:2012-03-12 20:26:52
上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。帝国的内容分页形式有两种:(1)全部列出式(2)上下页导航式,但是这两种内容分页形式有什么区别,采集内容分页时该用哪种,官方说得比较模糊,对此有些同学感到很头大,好的,我们先看下例子:
一、全部列出式
全部列表式只需看第一页的页面HTML代码,这一页的所有分页链接都列出来了。
1、我们以“中华网内容分页(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”为例:
可以看到这条新闻总共有3条分页。
2、查看源代码:
这一页里除了已经采集到的第1条分页外,还包括了第2条和第3条分页,所有的分页都列出来了。
3、取得 分页区域正则([!--smallpageallzz--]):
4、取得 分页链接正则([!--pageallzz--]):
二、上下页导航式
上下页导航式是分页采集的难点,他需要所有页面都符合分页正则才行,在不熟悉的情况下,我们可以用第1页和第2页的代码来进行对比分析然后确定分页正则。
1、我们以下网站的内容分页为例:
可以看到这条新闻总共有20条分页。
2、查看源代码:
标签:帝国cms,采集,教程
0
投稿
猜你喜欢
英国网游开“网眼” 借监控探头抓坏人赚钱
2009-10-09 09:02:00
建站半年过程和经验分享
2009-03-11 17:42:00
深度剖析百度定位广告 广告只给需要的人
2009-02-11 13:05:00
拒绝攻击 万能Asp防注入代码
2007-09-18 14:28:00
糟糕的网站用户体验最高境界
2007-11-02 00:03:00
马化腾:腾讯看走眼的很多 不止YouTube
2008-01-13 19:09:00
Google利用用户搜索关键词历史提高广告针对性
2008-06-29 15:26:00
PHPWind v7.3.2“引用”的返回链接如果链接到主题部分出错
2009-05-31 17:09:00
视频网站下一步
2009-10-24 14:55:00
Linux环境架设Samba服务器 实现网络互访
2008-10-10 11:05:00
百度技术牛人廖若雪详解大学生择业三大要诀
2009-10-15 16:37:00
分析师称上网本和Office将影响微软业绩
2009-10-24 13:55:00
Win10 安装Linux ubuntu-18.04双系统(安装指南)
2023-12-13 12:29:41
中文域名加邮箱 企业推广新思路
2009-05-24 12:34:00
ASP漏洞分析和解决方法
2008-10-30 13:35:00
Linux常用命令mkdir详解
2023-08-17 23:02:27
网站改版前需要注意的几个问题
2009-02-01 18:28:00
使用nginx实现网站负载均衡测试实例
2009-11-19 11:46:00
WordPress评论表情启用以及自定义表情
2011-09-07 17:13:54
在serv-u中隐藏你的帐号
2007-10-18 13:47:00