Python正则表达式入门-技术开发专区

Python正则表达式入门

作者：IT168 宇文编辑：覃里 2009-08-19 10:48 来源：IT168�

　　四、匹配字符的元字符

　　大多数字母和字符一般都会和自身匹配，或者说匹配它们的字面值，例如，正则表达式to会和字符串“to”精确匹配。此外，还有少数字符比较特殊，它们和自身并不匹配，而是跟其字面值之外的一些特殊的东西匹配，这些东西可能是字符集、重复次数或者位置等。常用的元字符包括：

　　. ^ $ * + ? { } [ ] \ | ( )

　　对于这些特殊字符，本文会陆续加以介绍。不过我们这里先了解一下用来匹配字符的元字符。首先，句点“.”这个元字符通常用于想匹配“任何字符”的地方：一般情况下，它匹配除换行字符之外的任何字符;但是在alternate模式(re.DOTALL)下，它匹配真正意义上的任何字符，包括换行字符在内。

　　我们接下来考察的元字符是“[”和“]”。它们常配对用来指定想匹配的一个字符集合，也就是说该集合内的任何一个元素都能满足我们的要求。集合内的字符可以单个列出，如果这些字符是连续的也可以用“-”号分隔的两个给定字符来指定一个字符范围。例如，[abc]将匹配“a”、“b”或“c”中的任意一个字符;当然也可以用区间[a-c]来表示同一字符集，这两者表示方法是等效的。如果想匹配字符串中的所有元音字母，则可使用下列代码：

import re
def re_show(pat, s):
    print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'

s = '''In company or association with respect to place or time;
        as, to live together in one house; to live together in the
        same age; they walked together to the town.'''
re_show(r"[aeiou]",s)

　　运行结果如下所示：

　　In c{o}mp{a}ny {o}r {a}ss{o}c{i}{a}t{i}{o}n w{i}th r{e}sp{e}ct t{o} pl{a}c{e} {o}r t{i}m{e};

　　{a}s, t{o} l{i}v{e} t{o}g{e}th{e}r {i}n {o}n{e} h{o}{u}s{e}; t{o} l{i}v{e} t{o}g{e}th{e}r {i}n th{e}

　　s{a}m{e} {a}g{e}; th{e}y w{a}lk{e}d t{o}g{e}th{e}r t{o} th{e} t{o}wn.

　　对于字符集合有一点需要特别注意，就是元字符在方括号中会“降级”为普通字符。例如，[a.]将匹配字符“a”或“.”中的任意一个;前面说过“.”通常用作元字符，但在字符集合里，其特殊性将被剥夺，恢复成普通字符。这一点读者可以自己改动一下上面的代码来实验一下。

　　有时需要查找不属于某个字符集合的字符。比如想查找除了数字6以外，其它任意字符都行的情况，这时需要用到反义：其做法是把元字符“^”作为集合的首个字符，例如，[^5] 将匹配除“6”之外的任意字符。

　　反斜杠“\”是一种非常重要的元字符。我们知道在Python的字符串中，反斜杠也是作为一种特殊字符(或转义字符)使用，后面可以跟不同的字符以表示不同特殊意义;它也可以用于取消所有的元字符，这样你就可以在模式中匹配它们了。举个例子，如果你需要匹配字符“\”，你可以在其之前用反斜杠来取消它们的特殊意义：\\。

　　下面是一些用“\”跟其他字符复合而成的元字符，它们通常表示一些预定义的字符集，如下所示：

　　\d 匹配任何十进制数;它等价于字符集合[0-9]。

　　\D 匹配任何非数字字符;它等价于字符集合[^0-9]。

　　\s 匹配任何空白字符;它等价于字符集合[ \t\n\r\f\v]。

　　\S 匹配任何非空白字符;它等价于字符集合[^ \t\n\r\f\v]。

　　\w 匹配任何字母数字下划线字符;它等价于字符集合[a-zA-Z0-9_]。

　　\W 匹配任何非字母数字下划线字符;它等价于字符集合[^a-zA-Z0-9_]。

　　五、匹配位置的元字符

　　在python的正则表达式中，还有一些元字符是专门用来表示位置的，常用的有：

　　\b 匹配单词的开头或结尾

　　\B 匹配不是单词开头或结束的位置

　　^ 匹配字符串的开始

　　$ 匹配字符串的结束

第1页：什么是正则表达式第2页：匹配单词的正则表达式第3页：匹配字符的元字符第4页：分组

关注我们