网站数据的采集及实践(2)

作者:淡然一笑 来源:站长网 时间:2007-10-01 14:36:00 

其次讲下采集工具的选择

采集工具不下几十种,如何选择适当的工具要看各位的爱好,其实学好一二种采集工具就可以了。 有cms系统自带的如帝国cms自带的采集, 有专门的采集的软件如火车头、小蜜蜂、贴探小黑、守望、三人行、ET等等,下面简单介绍一下: 字串9

①火车头采集软件,这个是最早的采集的软件,也是大名鼎鼎的采集软件, 软件安装有点麻烦,软件采用.net 架构,不过也容易搞定。 字串8

 软件的优点很多,规则制订也相对简单,可以制订整个站的规则,也可以本地入库同步发布到网站。 缺点是发布模块不容易找,而且难于开发,对新手来说很难发布成功。 因为作者近半年都没更新,bug比较多,最新的V3.2快出来了,还是值得期待的。

②小蜜蜂采集,这个可以和他的BBWPS--小蜜蜂商务网站门户系统整合使用,也可以单独用,需要本地装php环境,也半年没更新了 不过对国外的一些cms如joomla支持,还是不错的。刚才有问做英文站采集,用这个也是可以的

③贴探小黑 这个是收费的采集器,对新手来说还比较好用, 但规则制订感觉好别扭,比较好的解决了发布的问题,速度也很快,最新的4.0出来后作者可能会停止开发了 这个对论坛采集比较好,对网站的cms还不支持,还有不能多页采集,缺陷比较多。

④三人行 这个软件还是下了很多功夫的,界面有些粗糙,感觉不到位,有些作弊功能很不错,比如论坛同时在线、批量发贴等等 呵呵,平时很少用。由于作者的功利因素有很多不同名字的软件版本,功能基本一样,有些混乱。

⑤守望。这也是php的平台开发的,可直接安装在网站服务器上,直接采集到服务器上,这个比较好,免除了数据上传时间。

⑥ET。这个可谓后起之秀,比较好用,制订规则也简单灵活,但有的地方还不成熟。支持的系统还不多,不过潜力很大,新出的模拟提交,基本上绝大部分类型的采集都可做了。
以上是采集工具的介绍,哪种好用要看各位的偏好了。

采集用到的工具还包括抓包分析工具,如sniffer,wsockexpert等,

ASP的采集器。。。。

源代码分析工具,对于地址隐藏的网页用遨游自带的viewpage也挺好, 好象火车头3.2附带的新的源代码分析工具放出来了,对一些难采集的网站可以试试。
 
一般大家喜欢用2000/xp自带的记事本查看源代码,建议升级到vistia的记事本,支持繁体和框架,绝对好用 字串7

更深一步的还要学习破解ajax,就里就不介绍了。 第三个方面我讲采集数据的加工。数据采集来固然可以直接发布到网上去,但经过加工效果会更好。 数据的加工包括去掉别人的广告,换上自己的广告,过滤掉一些外站的链接

数据格式的简繁转换及编码转换

网站优化SEO处理等等 这里要注意的问题是别人广告一定要过滤干净,否则自己得不到广告费,别人的GG帐户也不安全,反而也害了别人。 还有SEO处理不要过份,适可而止,否则只会起反作用。 更高层次的采集是把采集内容变成自己的原创,这个需要高手自编程序对数据进行处理

目前为止还没见过这样的工具,不过有《疯狂作文》这样的软件出来,相信也不是做不到。
第四个方面是后续维护。

这个后续维护也可以翻陈出新,把已采集的数据进行再加工,添加新的关键字,新瓶也可以装旧酒。

通过我对几十个客户的采集教程,谈下我的体会。 采集内容要关注一定热度的内容, 字串7

比如QQ空间、QQ表情这些流量是很猛的,

还有游戏类型的网站, 有针对性群体的网站也比较好做。我一个客户一个月前采集的女性论坛站,数据有4万,现在基本在线在150人左右,日发新贴140篇

还有一个台湾客户2个月前采集的verycd电影站,现在日增新注册用户50左右,可见垃圾站还是有做头的。

大体内容就讲这些了,有什么需要了解的请朋友们提出来

标签:采集
0
投稿

猜你喜欢

  • Oblog.NET2.0版全新亮相 免费版本即将提供下载

    2009-09-13 20:49:00
  • DeDeCms V5.6数据批量索引到淘特搜索引擎

    2010-06-20 15:32:00
  • 如何为CentOS 7配置静态IP地址的两种方法

    2023-07-26 15:21:02
  • Web搜索引擎的工作原理

    2007-10-15 19:13:00
  • 微软KB939373补丁导致IIS无法运行的解决方法

    2010-05-11 18:32:00
  • 圣诞节的意义

    2007-12-24 17:23:00
  • linux搭建NFS文件共享服务器的步骤详解

    2023-08-04 23:14:49
  • 基于Win XP 架设Web服务器和FTP服务器

    2007-03-26 10:14:00
  • 网站被百度K了怎么办?

    2007-11-09 19:20:00
  • Godaddy US域名特价2.99美元

    2010-05-04 14:29:00
  • 关于网站流量的一些想法

    2008-02-15 07:39:00
  • 如何配置apache虚拟主机的实例小结

    2023-07-23 18:40:54
  • Linux中关于inode的知识总结

    2023-07-23 08:36:53
  • 使用301重定向更换wordpress博客域名

    2010-03-25 09:14:00
  • Linux 硬链接和软链接详细介绍

    2021-04-10 23:36:42
  • 网赚新手的网赚出路

    2009-03-21 13:51:00
  • 稳定性释疑 国外主机是否有CPU Time限制

    2009-01-19 16:52:00
  • 做站法则:服务第一 广告第二

    2010-03-07 19:42:00
  • Linux中使用crond工具创建定时任务的方法

    2021-04-12 18:06:26
  • 浅谈影响外部链接权重的十大因素

    2009-01-16 15:05:00
  • asp之家 网站运营 m.aspxhome.com