[Python 实战] - No.12 Python 中的正则表达式使用

2024-04-12 14:32

本文主要是介绍[Python 实战] - No.12 Python 中的正则表达式使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. Python中如何使用正则表达式

Python中使用正则表达式的步骤如下:

  • 使用import re导入正则表达式模块
  • 使用re.compile()创建一个对象
  • 使用Regex对象的search()方法,传入一个字符串,然后返回一个Match对象
  • 调用Match对象的group()方法,返回文本中匹配该正则表达式的字符串

示例如下,查找学生姓名中姓Zhang的同学姓名

import renamelist = "Li Ming;Zhang San;Fu yu;Guo Ji;Ren Jie;Zhang Lin;"
nameRegex = re.compile(r"Zhang\s\w+")
match = nameRegex.search(namelist)
print(match.group())

结果如下:

Zhang San

上面的代码中,有几个地方需要解释一下:

  • re.compile(r"Zhang San\s\w+")在正则表达式的前面加了一个r,标识该字符为原始字符串。因为,在Python中,转义字符前面需要加\来标记,如果你需要在字符串中打出\,那么你需要使用\\,或者在字符串的前面加入一个r来标记

    r"Zhang San\s\w+""Zhang San\\s\\w+"是等价的

  • search()函数匹配文本中第一个符合该字符串的结果并返回一个Match对象,Match对象的group()函数将返回被查找到的实际文本。所以在上述结果中,我们仅得到Zhang San这个结果。如果你的正则表达式中含有分组(后续会讲到),你可以使用group(1), group(2)来查询正则表达式中第一个,第二个分组的匹配结果。

2. 正则表达式的更多模式
1. 使用括号分组

假设,某地区的电话号码的表示形式为123-456-7890的形式,且前三位为区号,后七位标识电话号,要求将从文本中同时获取区号,电话号和整体的电话号码。

代码和结果如下:

text = "My phone number is 455-789-1234"
pnRegex = re.compile(r"(\d\d\d)-(\d\d\d-\d\d\d\d)")
match = pnRegex.search(text)
print(match.group())
print(match.group(1))
print(match.group(2))
print(match.groups())

结果如下:

455-789-1234
455
789-1234
(‘455’, ‘789-1234’)

group()默认传入参数为0,即返回整个匹配的文本。如果想获取全体分组的结果,使用groups()函数,该函数返回一个包含所有分组匹配结果的元组。

2. 使用管道匹配多个分组

字符|是正则表达式中的管道,用来匹配许多表达式中的一个。如果想匹配姓名列表中,姓Zhang的和姓Li的同学的姓名,可以使用管道|来连接多个正则表达式。

 namelist1 = "Li Ming;Zhang San;Fu yu;Guo Ji;Ren Jie;Zhang Lin;"namelist2 = "Zhang San;Fu yu;Guo Ji;Ren Jie;Zhang Lin;Li Ming;"nameRegex = re.compile(r"Zhang\s\w+|Li\s\w+")match1 = nameRegex.search(namelist1)print(match1.group())match2 = nameRegex.search(namelist2)print(match2.group())

结果如下:

Li Ming
Zhang San

3. 使用问号实现可选匹配

例如在之前的电话匹配中,我们希望即便有人省略区号,依然可以检测出电话号码。使用?来实现部分匹配的模式是可选的

text1 = "My phone number is 455-789-1234"
text2 = "My phone number is 789-1234"
pnRegex = re.compile(r"(\d\d\d-)?(\d\d\d-\d\d\d\d)")
match1 = pnRegex.search(text1)
print(match1.group())
match2 = pnRegex.search(text2)
print(match2.group())

结果如下:

455-789-1234
789-1234

4. 使用花括号匹配特定次数

假设现在我们有一串字符串:

* *** ********** ** *** ****** ** ***** * ******* ***** **** ***** * *** * **

如果我们想匹配一下几种情况:

  • 恰好三个* 连在一起的,如***
  • 少于等于三个* 连在一起的,如**,*
  • 连在一起的*个数大于等于四,但是小于等于五
  • 大于等于六个*连在一起的,如******

代码如下:

text = "* *** ********** ** **** ****** ** ***** * ******* ***** **** ***** * *** * **"
sRegex1 = re.compile(r"(\*){3}")
sRegex2 = re.compile(r"(\*){,3}")
sRegex3 = re.compile(r"(\*){4,5}")
sRegex4 = re.compile(r"(\*){6,}")
match1 = sRegex1.search(text)
match2 = sRegex2.search(text)
match3 = sRegex3.search(text)
match4 = sRegex4.search(text)
print(match1.group())
print(match2.group())
print(match3.group())
print(match4.group())

结果如下所示:

***
*
*****
**********

r"(\*){3}"中,(\*)表示匹配*型字符的分组。因为 *在正则表达式中表示匹配一个或多个,所以需要使用\进行转义,表示字符 *

花括号{n,m},表示前面的分组重复次数大于等于n次并且小于等于m次。m和n也可省略其中一个,表示大于等于n或者小于等于m。{n}表示分组恰好重复n次。

另外,可以看到,在被匹配的文本中,长度为4的字符串****排在长度为5的字符串***** 前面,但是代码查找到的结果是*****,这是因为默认情况下正则表达式是贪婪地,花括号的贪婪版本会尽可能的匹配更长的字符串。使用字符?可以声明正则表达式为非贪心形式

text = "* *** ********** ** *** ****** **** ***** * ******* ***** **** ***** * *** * **"
sRegex1 = re.compile(r"(\*){4,5}")
match1 = sRegex1.search(text)
sRegex2 = re.compile(r"(\*){4,5}?")
match2 = sRegex2.search(text)
print(match1.group())
print(match2.group())

结果如下:

*****
****
5. findall()方法

re模块的findall()方法返回被匹配文本中的所有匹配到的结果。

之前提到的search() 仅返回文本中第一个匹配到的结果,方法返回一个Match对象,并调用Match对象的group()函数获取匹配结果

findall()匹配文本中所有匹配的结果,并且返回一个所有结果的列表。如果正则表达式中有分组,那么findall()将返回分组的列表

比如之前的电话号的正则表达式:

text = "My phone number is 455-789-1234,Lily's phone number is 110-101-1230 and Lucy's phone number is 789-456-1245"
pnRegex = re.compile(r"(\d\d\d)-(\d\d\d-\d\d\d\d)")
reslist = pnRegex.findall(text)
print(reslist)

结果如下:

[(‘455’, ‘789-1234’), (‘110’, ‘101-1230’), (‘789’, ‘456-1245’)]

6. sub()函数和compile()函数

前面我们使用了re.compile() 来构造特定正则表达式的Regex对象,compile()函数具体的签名如下:

def compile(pattern, flags=0)

所以我们可以在compile()追加第二个参数,实现特定功能。

例如:检索文本中所有的Alice词语,不区分大小写,代码如下

text = "Alice is aLice,aliCe,and ALIcE.But it's not Bob."
regex = re.compile("Alice", re.IGNORECASE)
res = regex.findall(text)
print(res)

结果如下所示:

[‘Alice’, ‘aLice’, ‘aliCe’, ‘ALIcE’]

flags`的其他参数如下:

参数缩写用途
re.IGNORECASEre.IPerform case-insensitive matching.
re.LOCALEre.LMake \w, \W, \b, \B, dependent on the current locale.
re.MULTILINEre.M“^” matches the beginning of lines (after a newline) as well as the string. “$” matches the end of lines (before a newline) as well as the end of the string.
re.DOTALLre.D“.” matches any character at all, including the newline.
re.VERBOSEre.XIgnore whitespace and comments for nicer looking RE’s.
re.UNICODEre.UFor compatibility only. Ignored for string patterns (it is the default), and forbidden for bytes patterns.

sub()函数可以用于替换正则表达式查找到的字符串。例如,我们将之前字符串中所有的Alice的姓名隐藏:

text = "Alice is aLice,aliCe,ALIcE.But it's not Bob."
regex = re.compile(r"(A)(\w+)", re.IGNORECASE)
print(regex.sub(r'\1****',text))

结果如下所示:

A**** is a****,a****,A****.But it’s not Bob.

sub()函数第一个参数是要替换为的字符串,第二个参数是匹配的正则表达式。另外在sub()函数的第一个参数中,可以使用\1,\2 …来表示替换分组1,2…中的文本

正则表达式中的常用字符表,网上资源很多,这里不再放出来。


P.S. 文章不足之处还望指正
参考书籍:《Python编程快速上手—让繁琐工作自动化》

这篇关于[Python 实战] - No.12 Python 中的正则表达式使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897401

相关文章

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四