如何用 python re.sub 仅替换匹配的一部分-IT科技

如何用 python re.sub 仅替换匹配的一部分

2025-03-04 08:25:00

admin

原创

摘要：问题描述：我需要通过一个正则表达式匹配两种情况并进行替换'long.file.name.jpg' -> 'long.file.name_ suff.jpg ''long.file.name_ a.jpg ' -> 'long.file.name_ suff.jpg '我正在尝试做以下事情re.su...

问题描述：

我需要通过一个正则表达式匹配两种情况并进行替换

'long.file.name.jpg' -> 'long.file.name_ suff.jpg '

'long.file.name_ a.jpg ' -> 'long.file.name_ suff.jpg '

我正在尝试做以下事情

re.sub('(_a)?.[^.]*$' , '_suff.',"long.file.name.jpg")

但这是剪切扩展名“.jpg”，我得到了

long.file.name_suff. 而不是 long.file.name_suff.jpg 我知道这是因为 ¹*$ 部分，但我无法排除它，因为我必须找到最后一次出现的“_a”来替换或最后一个“。”

有没有办法只替换部分匹配？

解决方案 1：

将一个捕获组放在您想要保留的部分周围，然后在替换文本中包含对该捕获组的引用。

re.sub(r'(_a)?.([^.]*)$' , r'_suff.',"long.file.name.jpg")

解决方案 2：

 re.sub(r'(?:_a)?.([^.]*)$', r'_suff.', "long.file.name.jpg")

?:启动一个不匹配的组（SO答案），因此(?:_a)匹配_a但不枚举它，下面的问号使其成为可选的。

所以在英语中，这句话的意思是，匹配.<anything>遵循（或不遵循）模式的结尾_a

另一种方法是使用后向查询（参见此处）。之所以提到这个，是因为它们非常有用，但我在做 RE 的 15 年里都不知道它们

解决方案 3：

只需将扩展的表达式放入一个组中，捕获它并在替换中引用匹配：

re.sub(r'(?:_a)?(.[^.]*)$' , r'_suff',"long.file.name.jpg")

此外，使用非捕获组(?:…)将阻止重新存储过多不需要的信息。

解决方案 4：

您可以通过排除替换部分来实现这一点。我的意思是，您可以对正则表达式模块说：“与此模式匹配，但替换其中的一部分”。

re.sub(r'(?<=long.file.name)(_a)?(?=.([^.]*)$)' , r'_suff',"long.file.name.jpg")
>>> 'long.file.name_suff.jpg'

long.file.name和.jpg部分用于匹配，但它们被排除在替换之外。

解决方案 5：

我想使用捕获组来替换字符串的特定部分，以便稍后解析它。请考虑以下示例：

s= '<td> <address> 110 SOLANA ROAD, SUITE 102<br>PONTE VEDRA BEACH, FL32082 </address> </td>'

re.sub(r'(<address>s.*?)(<br>)(.*?</address>)', r' -- ', s)
##'<td> <address> 110 SOLANA ROAD, SUITE 102 -- PONTE VEDRA BEACH, FL32082 </address> </td>'

解决方案 6：

print(re.sub('name(_a)?','name_suff','long.file.name_a.jpg'))
# long.file.name_suff.jpg

print(re.sub('name(_a)?','name_suff','long.file.name.jpg'))
# long.file.name_suff.jpg

. ↩