防采集,几种觉得有用的防采集方法

时间:2009-09-03 13:30:00 

关于采集-防采集的我想大家都很清楚。这个就不多说,采集最终还是从页面源代码入手,所以只要没有规律想采集就难

由于一天自己在策划某个网站的时候,觉得自己的想法不错。可以于是就有了另个想法--防采集。所以就开始搜索了。找了些,讲的我个人觉得不是很理想,最后觉得这篇文章3点写得还可行(因为没试过什么是觉得)。内容如下:

1、文章头尾加随机广告..
2、文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''
3、正文头尾或列表头尾添加<!--重复特征代码-->
4、空格,代码中的空格

第一种防采集方法:

下面我详细说一下这三种方法的实际应用:

如果全加上,绝对可以有效的防采集,单独加一种就可以让采集者头疼。
完全可以对付通用的CMS采集程序。

在采集时,通常都是指定头尾特征从哪到哪过滤.这里我们先讲第一种方法,文章头尾加随机广告..随机广告是不固定的。

比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法:
<div id="xxx">
随机广告1欢迎访问阿里西西随机广告2
</div>
注:随机广告1和随机广告2每篇文章只要随机显示一个就可以了.

第二种防采集方法:

---------------------------------------
<!--<div id="xxx_文章ID">-->
其它标题或内容...
<!--<div id="xxx_文章ID">--> <div id="xxx_文章ID">
随机广告1欢迎访问阿里西西随机广告2
<--</div>-->
</div>
<--</div>-->
-------------------------------------

这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。
当然,这个可以用正则去掉,但足于对付通用的采集系统。

第三种防采集方法:

第三种加在文章的列表,随便链接样式:
<a href="xxx.html">标题一</a>
<a alt="xxx" href="xxx.html">标题二</a>
<a href='xxx.html'>标题三</a>
<a href=xxx.html>标题四</a>

-----------------------------------
所以:只要页面源代码没有规律想采集就难!无法批量进行采集.

标签:采集,防采集,CMS
0
投稿

猜你喜欢

  • 用MSXML2.ServerXMLHTTP的setTimeouts属性解决并死问题

    2010-03-02 20:21:00
  • 该用多大的字

    2009-05-17 14:39:00
  • 网页设计五原则

    2007-11-03 13:50:00
  • 阿里系的中国雅虎新首页浅谈

    2008-07-16 12:19:00
  • ASP代理采集的核心函数代码

    2010-01-02 20:43:00
  • 设计从"心"开始

    2011-05-21 08:37:00
  • 2008年10佳改版网站

    2008-09-22 20:15:00
  • asp操作Excel类源码

    2009-12-25 19:01:00
  • js捕捉窗口的关闭与刷新

    2008-10-08 10:20:00
  • 如何实现全文检索?

    2010-05-24 18:24:00
  • 谈谈网页设计中的字体应用 (3) 实战应用篇·上

    2009-11-24 13:09:00
  • 什么样的图标更具有可用性

    2007-10-16 17:47:00
  • JavaScript面向对象的简单介绍

    2008-06-27 12:37:00
  • 用 AjaxTags 简化 Ajax 开发

    2007-11-27 00:00:00
  • asp如何在线更改密码?

    2010-06-26 12:22:00
  • asp如何最准确地统计在线用户数?

    2010-07-11 21:12:00
  • 实例学习call、apply、callee用法

    2009-03-27 17:56:00
  • dl.dt.dd.ul.li.ol区别及应用

    2008-05-24 09:42:00
  • 网页设计之文字的辨识度与可读性

    2007-10-26 16:19:00
  • IE7异常CSS 导致内存破坏漏洞

    2009-11-30 12:52:00
  • asp之家 网络编程 m.aspxhome.com