如何用 python re.sub 仅替换匹配的一部分
- 2025-03-04 08:25:00
- admin 原创
- 56
问题描述:
我需要通过一个正则表达式匹配两种情况并进行替换
'long.file.name.jpg' -> 'long.file.name_ suff.jpg '
'long.file.name_ a.jpg ' -> 'long.file.name_ suff.jpg '
我正在尝试做以下事情
re.sub('(_a)?.[^.]*$' , '_suff.',"long.file.name.jpg")
但这是剪切扩展名“.jpg”,我得到了
long.file.name_suff. 而不是 long.file.name_suff.jpg 我知道这是因为 1*$ 部分,但我无法排除它,因为我必须找到最后一次出现的“_a”来替换或最后一个“。”
有没有办法只替换部分匹配?
解决方案 1:
将一个捕获组放在您想要保留的部分周围,然后在替换文本中包含对该捕获组的引用。
re.sub(r'(_a)?.([^.]*)$' , r'_suff.',"long.file.name.jpg")
解决方案 2:
re.sub(r'(?:_a)?.([^.]*)$', r'_suff.', "long.file.name.jpg")
?:
启动一个不匹配的组(SO答案),因此(?:_a)
匹配_a
但不枚举它,下面的问号使其成为可选的。
所以在英语中,这句话的意思是,匹配.<anything>
遵循(或不遵循)模式的结尾_a
另一种方法是使用后向查询(参见此处)。之所以提到这个,是因为它们非常有用,但我在做 RE 的 15 年里都不知道它们
解决方案 3:
只需将扩展的表达式放入一个组中,捕获它并在替换中引用匹配:
re.sub(r'(?:_a)?(.[^.]*)$' , r'_suff',"long.file.name.jpg")
此外,使用非捕获组(?:…)
将阻止重新存储过多不需要的信息。
解决方案 4:
您可以通过排除替换部分来实现这一点。我的意思是,您可以对正则表达式模块说:“与此模式匹配,但替换其中的一部分”。
re.sub(r'(?<=long.file.name)(_a)?(?=.([^.]*)$)' , r'_suff',"long.file.name.jpg")
>>> 'long.file.name_suff.jpg'
long.file.name和.jpg部分用于匹配,但它们被排除在替换之外。
解决方案 5:
我想使用捕获组来替换字符串的特定部分,以便稍后解析它。请考虑以下示例:
s= '<td> <address> 110 SOLANA ROAD, SUITE 102<br>PONTE VEDRA BEACH, FL32082 </address> </td>'
re.sub(r'(<address>s.*?)(<br>)(.*?</address>)', r' -- ', s)
##'<td> <address> 110 SOLANA ROAD, SUITE 102 -- PONTE VEDRA BEACH, FL32082 </address> </td>'
解决方案 6:
print(re.sub('name(_a)?','name_suff','long.file.name_a.jpg'))
# long.file.name_suff.jpg
print(re.sub('name(_a)?','name_suff','long.file.name.jpg'))
# long.file.name_suff.jpg
- . ↩
相关推荐
热门文章
项目管理软件有哪些?
热门标签
曾咪二维码
扫码咨询,免费领取项目管理大礼包!
云禅道AD