python 正则表达式贪婪模式与非贪婪模式原理、用法实例分析

作者：两步一脚印时间：2022-07-08 06:45:02　

本文实例讲述了python 正则表达式贪婪模式与非贪婪模式原理、用法。分享给大家供大家参考，具体如下：

之前未接触过正则表达式，今日看python网络爬虫的源码，里面一行正则表达式匹配的代码初看之下，不是很理解，代码如下：

myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)

“.*?”这种匹配方式，按理解应该是匹配任意字符0个或多个（re.S模式，“.”可以匹配“\n”），但是这个“？”总觉的在这儿是多余的，既然不理解，就敲代码试试：

import re
patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
print(match1.group())
else:
print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.baidu.com

这个结果，应该说是意料之中，加个“？”呢？

import re
patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
print(match1.group())
else:
print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.

竟然是这个结果。。。“.?”一个字符都没匹配，按“.”、“”、“?”的匹配理解，也就是“*”“？”均匹配前面字符0次，才会是这个结果，可是为啥就是0次了？

这就是正则表达式贪婪模式和非贪婪模式：

贪婪模式，总是尝试匹配尽可能多的字符；
非贪婪模式则相反，总是尝试匹配尽可能少的字符。

Python里数量词默认是贪婪的，这就解释了第一个匹配实验，输出结果为”www.baidu.com”（贪婪模式），也就是说第二个匹配实验是非贪婪模式，仅仅因为加了“？”，继续实验

import re
patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
print(match1.group())
else:
print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.b

此次匹配结果，显然是贪婪模式。奇怪了，也就是“？”的特殊组合才是非贪婪模式。

网上搜索得如下说明：

标准量词修饰的子表达式，在可匹配可不匹配的情况下，总会先尝试进行匹配，称这种方式为匹配优先，或者贪婪模式。此前介绍的一些量词，“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词，也就是在标准量词后加一个“?”，此时，在可匹配可不匹配的情况下，总会先忽略匹配，只有在由忽略优先量词修饰的子表达式，必须进行匹配才能使整个表达式匹配成功时，才会进行匹配，称这种方式为忽略优先，或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。

显然“*？”的组合是非贪婪模式，猜想正确，原来如此啊。

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

希望本文所述对大家Python程序设计有所帮助。

来源：https://blog.csdn.net/haoxizh/article/details/44648069

标签：python,正则表达式,贪婪模式,非贪婪模式

投稿

python 正则表达式贪婪模式与非贪婪模式原理、用法实例分析

猜你喜欢

python通过百度地图API获取某地址的经纬度详解

Python抓取Discuz!用户名脚本代码

使用php判断网页是否gzip压缩

cmd连接mysql的方法详解

python 教程实现 turtle海龟绘图

详解python的异常捕获

MySQL中的用户创建与权限管理

使用Golang的singleflight防止缓存击穿的方法

pandas 使用insert插入一列

Python系统公网私网流量监控实现流程

Spring boot 和Vue开发中CORS跨域问题解决

Asp下Access无法更新的解决方法

Python还能这么玩之只用30行代码从excel提取个人值班表

python网络编程之多线程同时接受和发送

如何正确的解决 MySQL中忽略用户的现象

在Pandas中处理NaN值的方法

Python3爬虫学习之应对网站反爬虫机制的方法分析

opencv 摄像机标定的实现

python requests.get带header

基于Golang实现Redis协议解析器