python 正则表达式贪婪模式与非贪婪模式原理、用法实例分析

作者:两步一脚印 时间:2022-07-08 06:45:02 

本文实例讲述了python 正则表达式贪婪模式与非贪婪模式原理、用法。分享给大家供大家参考,具体如下:

之前未接触过正则表达式,今日看python网络爬虫的源码,里面一行正则表达式匹配的代码初看之下,不是很理解,代码如下:


myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)

“.*?”这种匹配方式,按理解应该是匹配任意字符0个或多个(re.S模式,“.”可以匹配“\n”),但是这个“?”总觉的在这儿是多余的,既然不理解,就敲代码试试:


import re
patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
 print(match1.group())
else:
 print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.baidu.com

这个结果,应该说是意料之中,加个“?”呢?


import re
patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
 print(match1.group())
else:
 print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.

竟然是这个结果。。。“.?”一个字符都没匹配,按“.”、“”、“?”的匹配理解,也就是“*”“?”均匹配前面字符0次,才会是这个结果,可是为啥就是0次了?

这就是正则表达式贪婪模式和非贪婪模式:

  • 贪婪模式,总是尝试匹配尽可能多的字符;

  • 非贪婪模式则相反,总是尝试匹配尽可能少的字符。

Python里数量词默认是贪婪的,这就解释了第一个匹配实验,输出结果为”www.baidu.com”(贪婪模式),也就是说第二个匹配实验是非贪婪模式,仅仅因为加了“?”,继续实验


import re
patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
 print(match1.group())
else:
 print("match1 don't match")
#output
>>> ==================RESTART =============================
>>>
www.b

此次匹配结果,显然是贪婪模式。奇怪了,也就是“?”的特殊组合才是非贪婪模式。

网上搜索得如下说明:

标准量词修饰的子表达式,在可匹配可不匹配的情况下,总会先尝试进行匹配,称这种方式为匹配优先,或者贪婪模式。此前介绍的一些量词,“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词,也就是在标准量词后加一个“?”,此时,在可匹配可不匹配的情况下,总会先忽略匹配,只有在由忽略优先量词修饰的子表达式,必须进行匹配才能使整个表达式匹配成功时,才会进行匹配,称这种方式为忽略优先,或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。

显然“*?”的组合是非贪婪模式,猜想正确,原来如此啊。

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

希望本文所述对大家Python程序设计有所帮助。

来源:https://blog.csdn.net/haoxizh/article/details/44648069

标签:python,正则表达式,贪婪模式,非贪婪模式
0
投稿

猜你喜欢

  • python通过百度地图API获取某地址的经纬度详解

    2021-11-06 12:14:45
  • Python抓取Discuz!用户名脚本代码

    2023-06-20 00:34:40
  • 使用php判断网页是否gzip压缩

    2024-06-05 09:47:41
  • cmd连接mysql的方法详解

    2024-01-17 12:10:58
  • python 教程实现 turtle海龟绘图

    2022-03-19 10:45:35
  • 详解python的异常捕获

    2023-05-27 11:24:03
  • MySQL中的用户创建与权限管理

    2024-01-17 00:49:06
  • 使用Golang的singleflight防止缓存击穿的方法

    2024-05-22 10:12:29
  • pandas 使用insert插入一列

    2023-03-24 23:51:40
  • Python系统公网私网流量监控实现流程

    2022-05-16 07:55:39
  • Spring boot 和Vue开发中CORS跨域问题解决

    2024-04-28 09:32:54
  • Asp下Access无法更新的解决方法

    2012-12-04 20:19:35
  • Python还能这么玩之只用30行代码从excel提取个人值班表

    2022-05-03 22:49:45
  • python网络编程之多线程同时接受和发送

    2021-12-01 07:20:09
  • 如何正确的解决 MySQL中忽略用户的现象

    2008-11-27 16:00:00
  • 在Pandas中处理NaN值的方法

    2021-05-31 05:37:22
  • Python3爬虫学习之应对网站反爬虫机制的方法分析

    2022-04-17 08:44:16
  • opencv 摄像机标定的实现

    2023-09-17 16:08:06
  • python requests.get带header

    2022-07-28 20:50:40
  • 基于Golang实现Redis协议解析器

    2024-04-27 15:37:41
  • asp之家 网络编程 m.aspxhome.com