PHPCMS 、帝国及织梦对比分析(十一)之采集功能

来源:pmume.com 时间:2011-08-26 12:37:16 

提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。大家都知道火车头,一般基本用来采文章,但落叶经常用来采集邮箱,CMS间导数据,基至都用来采过QQ号。火车头的整套流程即使对采集规则了解不多,也很方便来采文章,那么相较之于这种客户端软件,主流CMS中的采集模块,有哪些优缺点呢?

本文中落叶对PHPCMS、帝国CMS及DEDECMS的采集功能作些对比,同时也对采集流程细节作些需求分析。

我们知道,通常的采集流程都是通过列表页分页批量获取内容页网址,然后对内容页分析,获取内容标题、文章内容等信息,因为各目标站的结构不同,采集规则会不同,CMS不可能也不会提供通用的采集规则,那么要考量一款CMS采集模块是否好用基本是由整个采集任务设置流程的易用性、采集的稳定性与效率、采集完入库方便性等方面决定。

1.采集设置流程:

整体体验:

PHPCMS的任务添加流程中直接在TAB菜单的形式列出来网址采集、内容规则设置、高级设置三步骤,每一步中的结构都和火车头比较像,对火车头采集的比较熟悉用户会觉得PHPCMS的采集设置比较明了。DEDE中流程类似,只是没有直接将几步列出,后一步的设置的前提是前一步设置正确。帝国CMS中则是希望用户一口吃饱,从上至下把需要的信息全部列出来。

其实整体都基本三步,没有太明显的区别是,只是三者表现方式的不同给用户的心理感受是不同的。PHPCMS简洁明了,让用户觉得采集很简单,三下两下就设置好了,新手愿意去尝试。帝国CMS中用户一进入采集设置界面顿感压力,页面一直下拖,这么多设置项,首先想到的是“算了,换别的采集”,“这么多填到什么时候,填完了能不能提交还是一回事”,而DEDECMS中把采集过程和设置流程整合起来,优点时可以保证每一步都设置正确,但对采集比较熟悉的用户而言,效率偏低,每次都得POST提交一次测试一次。

网址采集:

PHPCMS网址采集通过列表页分页通配符实现列表页网址批量添加,然后设置所需采集的网址区域,很多时候,对不熟悉HTML采集规则查找技巧的朋友可以通过直接设置“网址中必须包含”和“网址中不得包含”这两项来实现内容页网址的采集。DEDECMS也用*作分页通配符,不过DEDE中的优点在于可以启用多栏目通配规则,针对不同的栏目页批量设置采集规则,这样可以方便对有相同URL规则的多个栏目同时采集。帝国中则也只是一般的以[page]为通配符的多分页获取,相对表现平平。

PHPCMS中提供通过填写COOKIES信息对需要登陆的网站的采集,不过只对深度用户有用,一般用不着,DEDECMS中则提供了防盗链模式的设置,通过填入目标站内容页地址,采集时伪造来源来达到破解简单防盗链采集的目的,这点还是挺不错的。帝国CMS对相对路径的处理提供了填写“内容页地址前辍”的字段,但其实本应该做到URL自动扩充补全的。

内容规则的设置:

内容页规则的设置一般是针对每个字段提供设置匹配规则,同时进行一些格式过滤和信息替换。对比三款CMS,PHPCMS中的字段设置更人性化些,很清晰的实现了匹配信息的提取、信息替换、格式过滤的功能,而DEDECMS和帝国CMS中都直接一个textarea给出,让用户填写正则内容,体验上稍差些。DEDECMS中也以弹出窗口的方式给出了常用格式的过滤的勾选框,直接勾选可以生成过滤规则,表现方式不够明显,不适合新手使用,帝国则似乎完全是针对正则高手的,而实际用帝国的新手用户居多,我很为帝国担心,“有人用他的采集功能么?”

2. 采集稳定性与效率:

采集效率受限于服务器本身及网络环境,各CMS在技术上的差异不大,而稳定性则处决于采集流程及出错处理。这块PHPCMS的优势很明显,支持多线程采集,并以进展条方式展示,在采集中断时可刷新界面断点续采,效率和稳定性个人觉得挺不错。对已采集过的网址记录方式也仿照火车头的方式进行记录,防止重复采集。

DEDE则仍体现在他的细致上,每一步做过很多细节提示,优点的可以清楚知道怎样操作,缺点是太多需要让我思考的地方,帝国CMS似乎对得重复采集未作判断,即使刷新或后退都存在得复采集的情况。

3. 采集完入库:

帝国CMS在采集设置流程中即设置好了所采集的信息所对应入库的栏目,采集过程字段设置也完全与栏目的字段匹配,PHPCMS在采集前设置好了对应的栏目,但各字段并没有绑定,在采集完进行发布时,可以重新选择字段的对应关系,并可对一些字段如关键词、摘要、缩略图、时间等在发布时自动使用函数处理后填充。DEDECMS中在采集时未绑定栏目,发布时选择栏目导入,比较方便,但不支持字段选择。总体,落叶个人还是偏向于PHPCMS的地导入方式。

标签:PHPCMS,帝国CMS,DEDECMS,采集
0
投稿

猜你喜欢

  • 黑客攻破SQL服务器系统的十种方法

    2009-05-07 17:07:00
  • 提高网站的设计可用性及有效性的十条原则

    2008-12-16 10:23:00
  • 数据库安全防护几点介绍

    2009-03-16 16:42:00
  • GoDaddy主机常见问题之下载备份文件

    2010-04-13 13:12:00
  • GooDaddy主机-如何设置POP邮件 Godaddy

    2010-04-23 12:31:00
  • 新手建设网站的步骤和指南

    2007-12-06 12:51:00
  • 外媒分析中国网游企业财报 网易即将取代盛大

    2010-03-04 10:29:00
  • Google测试新AdSense系统

    2008-02-24 15:06:00
  • 该继续还是坚决放弃 一个令人为难选择

    2007-10-19 15:04:00
  • 一些感慨:网站管理员 - 站长

    2007-11-08 12:26:00
  • 使用Windows Server 2003搭建安全文件服务器

    2010-05-31 18:53:00
  • 无效HTML代码对搜索排名的影响

    2010-05-04 16:46:00
  • 网络美女YUMMY教你做美图:闪图DIY篇

    2009-11-23 08:57:00
  • 安装Linux与Oracle数据库步骤精讲

    2009-09-09 09:08:00
  • 导致网站的搜索引擎优化失败的七个大方面

    2009-02-17 12:58:00
  • 名家访谈:SEO专家Zac谈网络的营销与优化

    2008-12-10 09:56:00
  • 网络传言谷歌将撤走中国境内服务器

    2009-10-24 13:58:00
  • 抛砖引玉:谈博客软文自己擅长的四个领域

    2009-01-20 14:35:00
  • 决战web2.0时代 13种常用的网络营销策略

    2009-02-17 09:49:00
  • WINDOWS服务器安装多套PHP

    2009-02-19 13:09:00
  • asp之家 网站运营 m.aspxhome.com