所在的位置： C++ >> C++资源 >> 文本处理字符串匹配和信息提取Pyth

文本处理字符串匹配和信息提取Pyth

正则表达式是用来匹配字符串中字符组成规则的工具，虽然在Python中，字符串本身就内置了很多操作和方法，但是在一些涉及到字符串匹配和提取信息的场合，正则表达式就能够展现出它强大的功能。

Python标准库中有一个专门处理正则表达式的模块，叫做re模块。

一、基础讲解

re模块的功能主要有三类：匹配、搜索和替换。

其中，匹配是检查字符串中是否存在匹配规则的操作；搜索则是在字符串中查找符合规则的内容；替换则是将字符串中符合匹配规则的内容替换成指定的内容。

re模块中常用的几个函数如下：

re.match(pattern,string,flags=0)：从字符串开头开始匹配，如果匹配成功，则返回匹配对象，否则返回None。re.search(pattern,string,flags=0)：在整个字符串中搜索匹配的内容，如果匹配成功，则返回匹配对象，否则返回None。re.findall(pattern,string,flags=0)：搜索整个字符串，以列表形式返回所有匹配的子字符串。re.sub(pattern,repl,string,count=0,flags=0)：在字符串中替换所有匹配的内容，替换成指定的内容。re.split(pattern,string,maxsplit=0,flags=0)：根据正则表达式中指定的规则进行分割字符串，返回一个包含分割后子字符串的列表。上面是几个常见的函数，还有很多其他的函数，这里就不一一细说。

re模块中还有一个常用的概念就是正则表达式中的元字符，元字符是正则表达式中的一些特别的字符，它们用于组成匹配规则中的某些部分。

下面列出一些常用的元字符：

.：匹配任意一个字符（除了换行符）。^：匹配字符串的开头。$：匹配字符串的结尾。*：匹配前面的字符零个或多个。+：匹配前面的字符一个或多个。?：匹配前面的字符零个或一个。{m}：匹配前面的字符m个。{m,n}：匹配前面的字符m到n个。[]：匹配括号中任意一个字符。

：匹配多个正则表达式之一。()：标记一个子表达式的起始和结束位置。当然，这些元字符的应用是具有灵活性的，每一种元字符都可以细化到更具体的操作。

除了元字符，还提供了一些预定义字符，用以表示特定的字符串：

购买专栏解锁剩余68%

转载请注明：http://www.aierlanlan.com/rzgz/4309.html

上一篇文章：零基础Python自学教程9Python

下一篇文章： C对象成员的引用,有哪几种方式归纳