Python中正则表达式及其常用匹配函数有哪些
这篇文章主要介绍Python中正则表达式及其常用匹配函数有哪些,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
/简介/
Python 自1.5版本起增加了re 模块,它提供 Perl风格的正则表达式模式。re 模块使得Python 语言拥有全部的正则表达式功能。
compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。
/re.match函数/
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。语法如下所示:
re.match(pattern, string, flags=0)
"pattern"匹配的正则表达式"string"要匹配的字符串"flags"标志位。
匹配成功re.match方法返回一个匹配的对象,否则返回None。
我们可以使用group(num)或 groups() 匹配对象函数来获取匹配表达式。
group(num=0) 匹配的整个表达式的字符串,"group()"可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
下图是个实际例子:
输出结果如下图所示:
/检索和替换/
Python 的re模块提供了re.sub用于替换字符串中的匹配项。语法如下所示:
re.sub(pattern, repl, string, count=0, flags=0)
参数:
pattern : 正则中的模式字符串。
repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式,数字形式。
前三个为必参数,后两个为可选参数。
下图是个实际例子:
输出结果如下图所示:
/compile函数/
compile 函数用于编译正则表达式,供match() 和 search() 这两个函数使用。语法格式为:
re.compile(pattern[, flags])
参数:
pattern : 一个字符串形式的正则表达式
flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
re.I 忽略大小写
re.L 表示特殊字符集 \w,\W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为' . '并且包括换行符在内的任意字符(' . '不包括换行符)
re.U 表示特殊字符集 \w,\W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性,忽略空格和'# '后面的注释
/正则表达式对象/
re.RegexObject:re.compile() 返回RegexObject 对象。
re.MatchObject:group() 返回被 RE 匹配的字符串。
start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置
/正则表达式修饰符 - 可选标志/
正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I| re.M 被设置成 I 和 M 标志:
/正则表达式模式/
模式字符串使用特殊的语法来表示一个正则表达式:
字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。
多数字母和数字前加一个反斜杠时会拥有不同的含义。
标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。
反斜杠本身需要使用反斜杠进行转义。
由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r'\t',等价于 \\t )匹配相应的特殊字符。
下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。
正则表达式实例
字符匹配
字符类
/实际应用/
以猫眼电影为例。我们需要获取(电影的名字作者,上映时间)等等都可以用正则表达式来解析。
分析一下,利用正则表达式提取。
可以看到我们要的名字在一个a里面,而他们被一个div包裹着。
我们把div想象成一个盒子,可以看到div里面还有一个div 我们可以先找他上面一层的div是一个表单
- 再找到它的上一层的盒子div
分析完再实际操作一下:
pattern = re.compile('.*?title="(.*?)".*?class="star">(.*?).*?releasetime">(.*?)',re.S)(.*?)表示我们要的内容
(.*?)
里面的主演也是我们要的这样我们就可以得到我们想要得多个数据。/小结/
1. 正则表达式适合一些需要获取多个数据的场景。它能够以更快捷的方式去获取到我们想要的数据。
2. 本Python教程主要介绍了正则表达式,及其基本用法,具体每个字符的用法,可以参考前言里边的正则表达式系列文章,希望能够帮助大家更好的了解正则表达式的用法。
以上是"Python中正则表达式及其常用匹配函数有哪些"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
表达式 正则 字符 模式 字符串 函数 参数 标志 特殊 对象 位置 语法 多个 实际 数字 数据 斜杠 模块 元素 内容 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 共筑网络安全防线郭富才 数据库表设计联合主键 抓好网络意识形态和网络安全工作 无锡物流软件开发流程 枣庄职业学院计算机网络技术 车乐保互联网科技有限公司 数据库查询计算机工程系学生 北纬科技互联网转型 中国移动网络技术客服 异世界服务器地址 腾讯网络安全 总监 济南杉橙网络技术公司怎么样 网络技术讨论什么内容 电力负荷 数据库 网络安全事件应急指南下载 什么是高温服务器 全市网络安全工作报告 绍兴软件开发公司哪个好 软件开发概要设计包括 成本数据库实施细则 电信服务器集采标准 剧本杀数据库管理系统概述 常用的深信服网络安全解决方案 天基互联网龙头股亚光科技 自贡 软件开发 招聘 mac软件开发兼容性 数据库语法大全 it互联网科技公司 数据库结构标签与分类 未来之役换服务器段位没了