Python 获取指定开头指定结尾所夹中间内容(推荐)

作者:来一粒4869 时间:2021-12-13 10:32:05 

cv的xdm可以直接翻到 需求代码 用,想看中间的分析就老实往下看吧

little 背景

最近在做毕设,需要将几百篇整体结构差不多的文章中提取出一些内容,所以才有了这个blog。

需求

获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的。

例:

X X 市 人 民 检 察 院 指 控 : ‾ \underline{XX市人民检察院指控:} XX市人民检察院指控:被告人XXX与被害人YYY(女,殁年41岁,系XXX妻子)因家庭矛盾多次发生争执。X年Y月Z日早晨,被告人XXX在X市X市场…被告人XXX为偏执性精神障碍,具有限制刑事责任能力。
公 诉 机 关 认 为 ‾ \underline{公诉机关认为} 公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意 * 罪追究刑事责任

所需内容为:第一个下划线到第二个下划线中间的内容,即“被告人XXX…责任能力。”。其中,“检察院指控”是指定开头,“公诉机关认为”是指定结尾。

解决方案

原本想着NLP有没有现成的库可以直接调包,后来搜了半天没搜到,然后看到了正则表达式(真香)。

代码

低配方法:

适用于只有一种固定开头和结尾,多种就不行了

import re
def GetMiddleStr(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.'只能匹配除了'\n'外所有单个字符
   patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)
#     patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小写 ,这个适用于英文文章
   middleStr= re.match(patternStr,content)
   if middleStr:
       return middleStr.group(1)

中配方法:

适用于多种固定开头和结尾,不过是蛮力法,可以优化判断,减少循环次数

import re
def GetMiddleStr2(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
   goalStr = str('')

for sStr in startStr:
       for eStr in endStr:
           patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
           middleStr= re.match(patternStr,content)
           if middleStr:
               if not goalStr: # 判断 空 时候的值
                   goalStr = middleStr.group(1)
               else:        # 非空时,将将短的留下来
                   goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr

return goalStr

运行效果

content='且得到被害人家属谅解。综上,建议法庭对被告人XXX减轻处罚。经审理查明:被告人XXX与被害人YYY因家庭矛盾多次发生争执。X年Y月Z日清晨,被告人XXX在X市X市场......被告人XXX为偏执性精神障碍,具有限制刑事责任能力。公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意 * 罪追究刑事责任'
startStr = '经审理查明:'
endStr = '公诉机关认为,'
print(GetMiddleStr(content,startStr,endStr))

Python 获取指定开头指定结尾所夹中间内容(推荐)

第二种运行时将startStr和endStr分别赋值为:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘审理查明:’,‘审理查明:’,‘检察院指控’]
endStr = [‘经鉴定’,‘经鉴定,’, ‘归案后’]

代码讲解

正则表达式查一下手册即可:
.*:除了’\n’以外所有字符重复多次
[\s\S]:空白字符或者非空白字符,即所有字符(一个集合∪它在全集中的补集,即全集)
其余查一下手册就ok
正则表达式手册

来源:https://blog.csdn.net/qq_43661601/article/details/122519415

标签:Python,中间内容
0
投稿

猜你喜欢

  • 两种mysql对自增id重新从1排序的方法

    2024-01-22 13:07:40
  • Python的Django框架实现数据库查询(不返回QuerySet的方法)

    2024-01-28 06:05:02
  • pytorch实现图像识别(实战)

    2022-10-03 01:19:03
  • Python中的上下文管理器相关知识详解

    2022-07-03 16:40:24
  • Python reflect单例模式反射各个函数

    2022-11-11 08:52:51
  • 详解如何创建Python元类

    2023-09-20 04:50:15
  • Python元组 tuple的概念与基本操作详解【定义、创建、访问、计数、推导式等】

    2022-12-08 10:14:45
  • 使用Python的Treq on Twisted来进行HTTP压力测试

    2023-01-26 22:29:28
  • python基础教程之分支、循环简单用法

    2021-05-30 08:51:48
  • sqlserver 各种判断是否存在(表名、函数、存储过程等)

    2024-01-19 18:53:54
  • 教你如何用python操作摄像头以及对视频流的处理

    2021-03-01 05:59:55
  • Python的Flask框架中的Jinja2模板引擎学习教程

    2022-05-28 10:26:08
  • 在脚本中单独使用django的ORM模型详解

    2021-03-09 05:17:26
  • js/jq仿window文件夹移动/剪切/复制等操作代码

    2024-04-16 09:50:01
  • python 实现朴素贝叶斯算法的示例

    2023-12-09 12:59:11
  • Mysql复制表三种实现方法及grant解析

    2024-01-13 06:03:23
  • jquery插件bootstrapValidator表单验证详解

    2024-04-22 22:22:05
  • Python编程如何在递归函数中使用迭代器

    2023-08-04 11:20:24
  • 在python plt图表中文字大小调节的方法

    2021-04-21 04:40:28
  • 让设计散发文化韵味

    2009-03-22 15:01:00
  • asp之家 网络编程 m.aspxhome.com