Python3中正则表达式使用方法 & 柳叶扉鸿

内容目录

例如我们在这里输入待匹配的文本如下：

这段字符串中包含了一个电话号码和一个电子邮件，接下来我们就尝试用正则表达式提取出来。

我们在网页中选择匹配 Email 地址，就可以看到在下方出现了文本中的 Email。如果我们选择了匹配网址 URL，就可以看到在下方出现了文本中的 URL。是不是非常神奇？

其实，在这里就是用了正则表达式匹配，也就是用了一定的规则将特定的文本提取出来。比如电子邮件它开头是一段字符串，然后是一个@符号，然后就是某个域名，这是有特定的组成格式的。另外对于 URL，开头是协议类型，然后是冒号加双斜线，然后是域名加路径。

对于 URL 来说，我们就可以用下面的正则表达式匹配：

如果我们用这个正则表达式去匹配一个字符串，如果这个字符串中包含类似 URL 的文本，那就会被提取出来。

这个正则表达式看上去是乱糟糟的一团，其实不然，这里面都是有特定的语法规则的。比如 a-z 代表匹配任意的小写字母，s 表示匹配任意的空白字符，*就代表匹配前面的字符任意多个，这一长串的正则表达式就是这么多匹配规则的组合，最后实现特定的匹配功能。

写好正则表达式后，我们就可以拿它去一个长字符串里匹配查找了，不论这个字符串里面有什么，只要符合我们写的规则，统统可以找出来。那么对于网页来说，如果我们想找出网页源代码里有多少 URL，就可以用匹配 URL 的正则表达式去匹配，就可以得到源码中的 URL 了。