使用正则表达式找出不包含特定字符串的条目

作者:Kevin Yang 来源:Kevin Yang博客 时间:2010-03-02 22:06:00 

概述

做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目,找出不以某个特定字符串打头的条目,等等。

使用否定式前瞻

正则表达式中有前瞻(Lookahead)和后顾(Lookbehind)的概念,这两个术语非常形象的描述了正则引擎的匹配行为。需要注意一点,正则表达式钟的前和后和我们一般理解的前后有点不同。一段文本,我们一般习惯把文本开头的方向称作“前面”,文本末尾方向称为“后面”。但是对于正则表达式引擎来说,因为它是从文本头部向尾部开始解析的,因此对于文本尾部方向,称为“前”,因为这个时候,正则引擎还没走到那块,而对文本头部方向,则称为“后”,因为正则引擎已经走过了那一块地方。如下图所示:

所谓的前瞻就是在正则表达式匹配到某个字符的时候,往“尚未解析过的文本”预先看一下,看是不是符合/不符合匹配模式,而后顾,就是在正则引擎已经匹配过的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我们又称为肯定式匹配和否定式匹配

现代高级正则表达式引擎一般都支持都支持前瞻,对于后顾支持并不是很广泛,因此我们这里采用否定式前瞻来实现我们的需求。

实现

测试数据:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt2009-07-08 04:38:44 127.0.0.1 GET /

例如上面这几条简单的日志条目,我们想实现两个目标:

1. 把8号的数据过滤掉

2. 把那些不包含robots.txt字符串的条目给找出来(只要Url中包含robots.txt的都给过滤掉)。

前瞻的语法是:

(?!匹配模式)

我们先来实现第一个目标——匹配不以特定字符串开头的条目

这里我们因为要排除一段连续的字符串,因此匹配模式非常简单,就是2009-07-08。实现如下:

^(?!2009-07-08).*?$

用Expresso我们可以看到结果确实过滤掉8号的数据。

接下来,我们来实现第二个目标——排除包含特定字符串的条目

按照我们上面写法,我照葫芦画瓢了一下:

^.*?(?!robots\.txt).*?$

这段正则用大白话描述就是:开头任意字符,然后后面不要跟着robots.txt连续字符串,然后再跟着任意个字符,字符串结尾。

运行测试,结果发现:

没有达到我们想要的效果。这是为什么呢?我们给上面的正则表达式加上两个捕获分组调试一下:

^(.*?)(?!robots\.txt)(.*?)$

测试结果:

我们看到,第一个分组啥都没有匹配到,而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上,当正则引擎解析到A区域的时候,就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符,前瞻条件又满足,A区域后面紧跟着的是“2009”字符串,而并不是robots。因此整个匹配过程成功匹配到所有条目。

分析出原因之后我们对上述的正则进行修正,将.*?移入前瞻表达式,如下:

^(?!.*?robots).*$

测试结果:

Bingo!

标签:正则表达式,字符串,匹配字符串
0
投稿

猜你喜欢

  • 微软证实最新的关键SQL Server漏洞

    2008-12-23 13:31:00
  • 如何解决因使用On Error Resume Next导致错误不正确的问题?

    2009-12-16 18:34:00
  • 微软建议的ASP性能优化28条守则(9)

    2005-05-30 16:05:00
  • 微软建议的ASP性能优化28条守则(6)

    2008-02-29 11:43:00
  • 漂亮的title提示信息

    2008-08-12 12:51:00
  • ASP调试方法图文教程

    2008-01-26 19:32:00
  • 22个HTML5的初级技巧

    2010-12-17 12:39:00
  • ASP使用xmlhttp定时触发事件

    2008-08-19 18:09:00
  • IE中选择符的4095限制

    2009-10-09 13:25:00
  • 一种弹出提示信息时页面背景色调改变的方法

    2008-12-01 12:22:00
  • Firefox的默认样式表

    2008-05-09 12:06:00
  • asp如何判断偶数和奇数?

    2010-01-12 20:16:00
  • 导航与搜索合并的可能性

    2009-09-27 12:06:00
  • 让表单 input 只能输入数字

    2008-06-08 13:54:00
  • 如何在SQL Server数据库中加密数据

    2008-12-18 14:27:00
  • 观点 2009 年,IE6 走好

    2009-01-04 16:46:00
  • ASP同一站点不同编码程序出现乱码解决办法

    2008-11-10 12:08:00
  • 如何对MySQL数据库日志文件进行维护

    2009-02-04 13:23:00
  • CSS Type set: 在线字体调整工具

    2008-03-02 15:36:00
  • 数据安全之MySQL安全的二十三条军规

    2008-12-24 16:26:00
  • asp之家 网络编程 m.aspxhome.com