Python 采集数据三步曲之[正则表达式 re.py]

J.sky
Python基础
2017/9/1

越来越多的朋友开始注意并喜欢上python,有时做为一个新手或是一个从其它编程语言转投过来的新人可能会稍稍有些迷茫,Python的学习应该从哪里开始呢?虽然雄心壮志万丈目标宏伟,但我们是否应该先订一个小小的目标呢?比如说先码一个简单的Python采集器

如何用Python开始一个简单的正则表达式?

其实很简单,从

import re

引入Python的正则表达式支持模块开始。

开始使用re模块

#codeing=utf-8
import re
p = re.compile(r'17python')#创建Pattern对象
m = p.match('17python.com')
if m :
    print(m.group())
# 输出结果为:17python

另一种方式:

#使用re模块方法代替实例方法
print(re.match('17python', '17python.com').group())
# 输出结果为:17python

re模块及正则实例常用方法演示

p = re.compile(r'17python')
s1 = '17python.com'
s2 = 'www.17python.com'
s3 = '17python.com17python.com'
s4 = 'abc.com'
p4 = re.compile('abc')
print(p.match(s1).group())
print(p.search(s2).group())
print(p.findall(s3))
print(p4.sub('17python', s4))

以上只是Pythonre模块中最常用的方法,这些后边采集数据的时候都会用到。更多方法的详细介绍可以参考Python文档 re模块详解

元字符 (参见 python 模块 re 文档)

  • . 匹配任意字符(不包括换行符)
  • ^ 匹配开始位置,多行模式下匹配每一行的开始
  • $ 匹配结束位置,多行模式下匹配每一行的结束
  • * 匹配前一个元字符0到多次
  • + 匹配前一个元字符1到多次
  • ? 匹配前一个元字符0到1次
  • {m,n} 匹配前一个元字符m到n次
  • \ 转义字符,跟在其后的字符将失去作为特殊元字符的含义,例如\.只能匹配.,不能再匹配任意字符
  • [] 字符集,一个字符的集合,可匹配其中任意一个字符
  • | 逻辑表达式 或 ,比如 a|b 代表可匹配 a 或者 b
  • (...) 分组,默认为捕获,即被分组的内容可以被单独取出,默认每个分组有个索引,从 1 开始,按照"("的顺序决定索引值
  • (?iLmsux) 分组中可以设置模式,iLmsux之中的每个字符代表一个模式,用法参见 模式 I
  • (?:...) 分组的不捕获模式,计算索引时会跳过这个分组
  • (?P<name>...) 分组的命名模式,取此分组中的内容时可以使用索引也可以使用name
  • (?P=name) 分组的引用模式,可在同一个正则表达式用引用前面命名过的正则
  • (?#...) 注释,不影响正则表达式其它部分,用法参见 模式 I
  • (?=...) 顺序肯定环视,表示所在位置右侧能够匹配括号内正则
  • (?!...) 顺序否定环视,表示所在位置右侧不能匹配括号内正则
  • (?<=...) 逆序肯定环视,表示所在位置左侧能够匹配括号内正则
  • (?<!...) 逆序否定环视,表示所在位置左侧不能匹配括号内正则
  • (?(id/name)yes|no) 若前面指定id或name的分区匹配成功则执行yes处的正则,否则执行no处的正则
  • \number 匹配和前面索引为number的分组捕获到的内容一样的字符串
  • \A 匹配字符串开始位置,忽略多行模式
  • \Z 匹配字符串结束位置,忽略多行模式
  • \b 匹配位于单词开始或结束位置的空字符串
  • \B 匹配不位于单词开始或结束位置的空字符串
  • \d 匹配一个数字, 相当于 [0-9]
  • \D 匹配非数字,相当于 [^0-9]
  • \s 匹配任意空白字符, 相当于 [ \t\n\r\f\v]
  • \S 匹配非空白字符,相当于 [^ \t\n\r\f\v]
  • \w 匹配数字、字母、下划线中任意一个字符, 相当于 [a-zA-Z0-9_]
  • \W 匹配非数字、字母、下划线中的任意字符,相当于 [^a-zA-Z0-9_]

更详细的Pythonre正则表达式教程

本文源码下载:

相关文章