随笔 - 224  文章 - 41  trackbacks - 0
<2018年4月>
25262728293031
1234567
891011121314
15161718192021
22232425262728
293012345

享受编程

常用链接

留言簿(11)

随笔分类(159)

随笔档案(224)

文章分类(2)

文章档案(4)

经典c++博客

搜索

  •  

最新评论

阅读排行榜

评论排行榜


题记

    本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。
    正则表达式在很多的应用中都有使用到,特别是在网络爬虫中格式化html后取出自己需要的属性,在字符串的匹配和查找中也有很多的应用。
    本文主要使用python对正则表达式进行说明,并配合合适的代码。

如何匹配手机号码

正则表达式的规则,一开始看的时候,会感觉规则太多太乱,毫无规律可寻,看完了几个例子以后,慢慢的发现一些常用的表达式以后,写起后面的规则就容易得多了。
这里以如何匹配手机电话号码为例子
最简单的手机规律为11个数字,正则表达式为:
    \d{11}

这样我们就认为凡事字符串中有11位数字就认为是手机号码,但是现实中还有另外一些规则,12345678912这也是11个数字,但是我们现在并不会认为他是手机号码,所以进一步的把规则写细了。
我们还可以进一步的细分为,13x开头,14x开头,17(13678)开头,18x开头,后面再带8位的数字,还有另一种情况是170的情况,其中第四位为[0589]中的一个数,再带7位数字。
表达式可以写为:
    (13\d|14[57]|15[^4,\D]|17[13678]|18\d)\d{8}|170[0589]\d{7}

正则表达式语法

我们刚才用到的\d 在正则表达式中,代表着数字的意思,还可以用[0-9]来表示一个数字。语法比较多,但是常用的并不是很多,图中表示的是常见的语法。
字符串匹配:

| 语法        | 含义    | 
| --------   | :-----:   | 
| \d        | 数字      | 
| \D        | 非数字      |
| \s        | 空白符      |
| \S        | 非空白符      |
| \w        | 单词字符      |
| \W        | 非单词字符      |

数量匹配:

| 语法        | 含义    | 
| --------   | :-----:   | 
| *        | 匹配前面字符0次到无限次       | 
| +        | 匹配前面字符1次到无限次       |
| ?        | 匹配前面字符0到1次      |
|{m}        | 匹配前面字符m次      |
| {m,n}        | 匹配前面字符m到n次      |
匹配边界:
| 语法        | 含义    | 
| --------   | :-----:   | 
| ^       | 匹配字符串开头       | 
| $        | 匹配字符串末尾       |

图中的表达式都有专门的例子介绍,可以大概的看看,需要用到的时候在专门来进行查询。

python中的re模块

在python中,有专门的模块来负责正则表达式,就是re模块。

字符串是否匹配规则

比如在用户注册里,我们要求用户输入的手机号码,符合手机号码的规律,可以用正则表达式来限制。
查看字符串中
是否有符合要求的字符串,还是以刚才的手机号码为例:
    import re
    str = '15259340987'
    # 将正则表达式编译成Pattern对象
    pattern = re.compile('152\d{8}')
    # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None
    match = pattern.match(str)
    if match:
        # 使用Match获得分组信息
        print match.group()

这里可以看出正则表达式,用的是
    re.compile('152\d{8}')
这个表达式比
    (13\d|14[57]|15[^4,\D]|17[13678]|18\d)\d{8}|170[0589]\d{7}
是严格非常多的,他只匹配,152开头的手机号码,当然表达式可以根据你自己的需要来选择,这里只是给一个实例。

找出所有符合规则的字符串


在网页爬虫中,我们需要找出网页的说有链接,用正则匹配就非常容易做到,查看网页源代码中的html,带有网页链接的代码为
    href="http://tech.sina.com.cn/t/2017-08-17/doc-ifykcppx8531845.shtml"
正则表达式可以写成:
    href="(.*?)"
python代码为:
    import re
    str = 'href="http://tech.sina.com.cn/t/2017-08-17/doc-ifykcppx8531845.shtml"'
    # 匹配
    links = re.findall('href="(.*?)"', str)
    for link in links:
        print link
    # 输出为: 
    # http://tech.sina.com.cn/t/2017-08-17/doc-ifykcppx8531845.shtml

找出了所有需要的链接。

re模块中重要的接口

  • re.compile(pattern, flags=0)
    这个方法是Pattern类的工厂方法,用于将字符串形式的正则表达式编译为Pattern对象。 第二个参数flag是匹配模式,取值可以使用按位或运算符'|'表示同时生效,比如re.I | re.M。另外,你也可以在regex字符串中指定模式,比如re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。 
    语句
prog = re.compile(pattern)
result = prog.match(string)
result = re.match(pattern, string)
    等价,第二种写法较为方便。
  • re.search(pattern, string, flags=0)
    这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None。 
pos和endpos的默认值分别为0和len(string));re.search()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。 
  • re.match(pattern, string, flags=0)
    这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None。 
pos和endpos的默认值分别为0和len(string);re.match()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。 
注意:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符'$'。 
  • re.split(pattern, string, maxsplit=0, flags=0)
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数,不指定将全部分割。 
  • re.findall(pattern, string, flags=0)
搜索string,以列表形式返回全部能匹配的子串。 
  • re.sub(pattern, repl, string, count=0, flags=0)
    使用repl替换string中每一个匹配的子串后返回替换后的字符串。 
当repl是一个字符串时,可以使用\id或\g<id>、\g<name>引用分组,但不能使用编号0。 
当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。 
count用于指定最多替换次数,不指定时全部替换。 

常用的正则表达式语句

  • 匹配邮箱:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}
  • 匹配中文:[\u4e00-\u9fa5]
  • 匹配IP(IPV4):(\d+)\.(\d+)\.(\d+)\.(\d+)
  • 匹配身份证:\d{15}|\d{17}[0-9Xx]
  • 匹配手机号:(13\d|14[57]|15[^4,\D]|17[13678]|18\d)\d{8}|170[0589]\d{7}

正则表达式工具

正则表达式语法比较复杂,开始没有经验的话,调试起来比较麻烦,现在网上有很多的正则表达式工具,能帮助我们快速的进行试验。有客户端的工具也有web工具,用起来都较为方便。
用的较多的是RegexBuddy这一款工具,如图,他可以自动的生成各种语言版本的正则表达式的例子:
如下
更多入门教程可以参考:http://www.bugingcode.com/python_start/
posted on 2018-01-12 15:13 漂漂 阅读(20) 评论(0)  编辑 收藏 引用

只有注册用户登录后才能发表评论。
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理