如何过滤中国站长站(chianz)文章干扰码
来源:asp之家 时间:2008-01-04 20:14:00
之前我写过一篇文章介绍如何实现中国站长站的文章干扰码功能:《谈中国站长站的文章干扰码实现方法》 首发在asp之家。如果大家有兴趣可以先看看。
知道了如何添加随机干扰码后,当然也要研究一下如何过滤去掉这个干扰码,否则要转chinaz的文章时就麻烦了,短的文章我们手动清除干扰码也不费力,如果是长的文章,段落很多,要清除干净干扰码是很费神,费时间的,一不留神还容易漏掉一两个,如果让访客看到就不好了,呵呵。
我今天就来给大家分享一下如何自动过滤中国站长站的这个文章干扰码,当然我的方法也许不是最好的,欢迎大家一起讨论指导!
这里我介绍两种去除干扰码的方法:
一是,在客户端通过javascript程序过滤
二是,在服务器端通过asp程序自动清除干扰码
这两种方法,各有优点,客户端处理适合手动添加文章,及时排除干扰,利于内容的编辑。服务器端处理适合批量采集文章入库。
为了方便大家理解同样我也引用了一段经过chianz加干扰的文章内容html代码:
<p>北京时间1月2日消息:据国外媒体报道,密切关注Google搜索引擎的博客网站“Google操作系统”最近发现,Google对网页搜索算法进行了调整,最新更新的网页能够获得更高的排名。 <span class='Gwx425'>站.长.站</span> </p>
<p>据该网站报道,多次搜索表明,最近更新的网页能够获得比较高的排名。 <font color='#F5FAFE'>中国.站.长站</font> </p>
<p>过去, * 拥有较高排名。但是在一些术语的搜索上,Google将首先显示来自Digg网站最新的帖子。 <p class='Gwx425'>Www.Chinaz.com</p> </p>
<p>据TechCrunch网站博客评论,和雅虎、微软等搜索对手相比,Google在抓取、索引最新网页方面一直占据优势地位。新网页获得更高排名有助于显示出Google这一优势。 <div class='Gwx425'>Chinaz~com</div> </p>
分析代码我们知道,它的干扰码的特点都是以:
<span class='Gwx425'>干扰文字</span>
<p class='Gwx425'>干扰文字</p>
<div class='Gwx425'>干扰文字</div>
<font color='#F5FAFE'>干扰文字</font>
这四种html代码形式隐藏的,并且class和color的值都是随机的。所以我们就要想办法通过程序来自动过滤掉这些无用的代码。
标签:干扰码,中国站长站,正则表达式,javascript
0
投稿
猜你喜欢
xmlhttp 乱码 比较完整的解决方法 (UTF8,GB2312)
2008-05-02 21:02:00
Oracle数据库逻辑备份的SH文件
2010-07-27 13:26:00
ASP实现长文章自动分页的函数代码
2008-10-10 17:09:00
Opera Mini 5 网站开发速记
2010-04-20 16:29:00
使用Title提升可访问性二
2009-11-16 12:53:00
ORACLE常见错误代码的分析与解决三
2010-07-26 13:28:00
如何实现上下翻页?
2010-05-24 18:29:00
Oracle 游标使用总结
2009-10-02 17:36:00
一个asp伪静态的程序实现方法
2010-06-28 18:56:00
自己重新写了一个JavaScript的对象克隆函数
2008-08-03 16:47:00
asp的分词技术
2007-08-25 17:50:00
ASP中DLL的调试环境配置全攻略
2007-09-27 13:20:00
Mootools常用方法扩展(三)
2009-01-14 20:07:00
一种有创意的CSS命名规则
2008-06-15 15:18:00
Web 设计:实现干净代码的12条定律
2008-12-04 13:27:00
asp如何写入超长的字符串?
2010-06-09 18:53:00
如何利用SQL Server 2005中的模板参数
2009-01-23 15:02:00
asp access数据库并生成XML文件范例
2011-03-29 10:49:00
MySQL环境下导入数据时是否需要禁用索引
2009-01-04 12:42:00
asp读取xml实例代码
2011-03-08 11:13:00