如何过滤中国站长站(chianz)文章干扰码

来源:asp之家 时间:2008-01-04 20:14:00 

之前我写过一篇文章介绍如何实现中国站长站的文章干扰码功能:《谈中国站长站的文章干扰码实现方法》 首发在asp之家。如果大家有兴趣可以先看看。

知道了如何添加随机干扰码后,当然也要研究一下如何过滤去掉这个干扰码,否则要转chinaz的文章时就麻烦了,短的文章我们手动清除干扰码也不费力,如果是长的文章,段落很多,要清除干净干扰码是很费神,费时间的,一不留神还容易漏掉一两个,如果让访客看到就不好了,呵呵。

我今天就来给大家分享一下如何自动过滤中国站长站的这个文章干扰码,当然我的方法也许不是最好的,欢迎大家一起讨论指导!

这里我介绍两种去除干扰码的方法:

一是,在客户端通过javascript程序过滤

二是,在服务器端通过asp程序自动清除干扰码

这两种方法,各有优点,客户端处理适合手动添加文章,及时排除干扰,利于内容的编辑。服务器端处理适合批量采集文章入库。

为了方便大家理解同样我也引用了一段经过chianz加干扰的文章内容html代码:


<p>北京时间1月2日消息:据国外媒体报道,密切关注Google搜索引擎的博客网站&ldquo;Google操作系统&rdquo;最近发现,Google对网页搜索算法进行了调整,最新更新的网页能够获得更高的排名。 <span class='Gwx425'>站.长.站</span> </p>
<p>据该网站报道,多次搜索表明,最近更新的网页能够获得比较高的排名。 <font color='#F5FAFE'>中国.站.长站</font> </p>
<p>过去, * 拥有较高排名。但是在一些术语的搜索上,Google将首先显示来自Digg网站最新的帖子。 <p class='Gwx425'>Www.Chinaz.com</p> </p>
<p>据TechCrunch网站博客评论,和雅虎、微软等搜索对手相比,Google在抓取、索引最新网页方面一直占据优势地位。新网页获得更高排名有助于显示出Google这一优势。 <div class='Gwx425'>Chinaz~com</div> </p>


分析代码我们知道,它的干扰码的特点都是以:


<span class='Gwx425'>干扰文字</span>
<p class='Gwx425'>干扰文字</p>
<div class='Gwx425'>干扰文字</div>
<font color='#F5FAFE'>干扰文字</font>


这四种html代码形式隐藏的,并且class和color的值都是随机的。所以我们就要想办法通过程序来自动过滤掉这些无用的代码。

标签:干扰码,中国站长站,正则表达式,javascript
0
投稿

猜你喜欢

  • python3实现飞机大战

    2023-03-03 00:36:18
  • js multiple全选与取消全选实现代码

    2024-04-28 10:19:36
  • 在ASP.NET 2.0中操作数据之三十:格式化DataList和Repeater的数据

    2023-07-22 20:15:21
  • Node+OCR实现图像文字识别功能

    2024-04-22 13:01:41
  • Transact_SQL小手册,适合初学者

    2008-08-25 19:40:00
  • 使用Python制作表情包实现换脸功能

    2022-01-14 09:10:18
  • pytorch对可变长度序列的处理方法详解

    2022-11-11 23:19:39
  • python+requests+pytest接口自动化的实现示例

    2022-11-01 06:12:27
  • Python中的rfind()方法使用详解

    2022-05-05 21:30:54
  • jenkins配置python脚本定时任务过程图解

    2023-11-12 12:57:15
  • 解决Element中el-date-picker组件不回填的情况

    2024-04-09 11:00:47
  • numpy.ndarray 交换多维数组(矩阵)的行/列方法

    2023-01-10 05:48:48
  • 分享python数据统计的一些小技巧

    2022-08-20 11:24:47
  • Python OpenCV超详细讲解透视变换的实现

    2021-08-02 21:19:48
  • JavaScript内置对象math,global功能与用法实例分析

    2024-04-22 22:36:47
  • Python colorama 彩色打印实现代码

    2022-10-03 22:32:28
  • Python之 requests的使用(一)

    2023-01-06 16:02:09
  • Python 八个数据清洗实例代码详解

    2022-12-08 23:50:36
  • python机器学习之神经网络实现

    2022-01-10 08:10:05
  • 通过Python pyecharts输出保存图片代码实例

    2021-09-14 22:26:11
  • asp之家 网络编程 m.aspxhome.com