perl 和 ereg正则表达式 (regular expression), 常简写为 regex, 用于在字符串中进行比较复杂的匹配
perl 和 ereg
现有两种类型的正则表达式 perl 和 POSIX, perl 类型 更规范,执行效率越高, POSIX 类型常用于 Unixphp 提供了两套正则表达式函数库preg_ 系列以 perl 为基础ereg_ 系列以 POSIX 为基础
preg_ 系列更常用,ereg_ 将要被淘汰
原子
基本字符
ASCII码中,除了下面要介绍的字符之外的,所有字符。基本字符与下面要介绍的各种特殊字符与模式结合使用,就形成了所谓的正则表达式。Linux正则表达式特性及BRE与ERE的区别 http://www.linuxidc.com/Linux/2014-03/99152.htmgrep使用简明及正则表达式 http://www.linuxidc.com/Linux/2013-08/88534.htm正则表达式的用法 http://www.linuxidc.com/Linux/2013-03/81897.htm正则表达式之零宽断言 http://www.linuxidc.com/Linux/2013-03/81897.htmLinux中正则表达式与文件格式化处理命令(awk/grep/sed) http://www.linuxidc.com/Linux/2013-03/81018.htm
单元符号 ()
圆括号中的基本字符在匹配时被看做一个整体。
该整体会保存在内存中,可作为整体获取,例如 "/go(abc)g\1le/" 可以匹配 goabcgabcle, \1 对应了 abc。这种方法可用于匹配不同格式的日期 "/2014(.*)061(13)/" 可匹配 2014/06/13 或 2014-06-13 , 但不可匹配 2014-06/13 。这里 \1(13) 如不加括号会被认为内存中的第 113 号。也可以用模式修饰符 x 实现 "/2014(.*)061 13/x",
原子表 []
与单元符号相反,原子表用于匹配其中的中任意一个原子。
原子表中 x-y 匹配 x 到 y 范围内的字符, 常见用法如下
| 正则 | 匹配 |
|---|
| [0-9] | 所有数字 |
| [a-z] | 所有小写字母 |
| [A-z] | 所有大写字母 |
| [a-zA-z] | 所有字母 |
需要注意的是
^ 符号在原子表中表示排除,而在元字符中表示开头| 正则 | 匹配 |
|---|
| [^abc] | 除了abc外的字符 |
| [^0-9] | 所有 非 数字 |
转义字符
转义字符就是一些常用原子表表达式的简写
| 转义字符 | 匹配 | 原子表表示 |
|---|
| d | 所有数字 | [0-9] |
| D | 除所有数字外 | [^0-9] |
| w | 所有字母加数字加下划线 | [a-zA-Z0-9_] |
| W | 除字母数字下划线之外的字符 | [^a-zA-Z0-9_] |
| s | 匹配空白(Tab,空格,换页,换行) | [fv
] |
| S | 匹配非空白 | [^fv
] |
元字符 metacharacter
| 字符 | 匹配 |
|---|
| . | 匹配除换行符以外的任意字符 |
| * | 匹配前一个内容的0次或1次或多次 |
| + | 匹配前一个内容的1次或多次 |
| ? | 匹配0次或1次 |
| | | 逻辑符 “或” |
| ^ | 匹配字符串首部内容,加在原子前, 例如 ^abc |
| $ | 匹配字符串尾部部内容, 加在原子后, 例如 abc$ |
| 通过边界匹配单词,边界为空格或特殊符号, is 用于匹配 is 单词 |
| B | 通过边界匹配单词以外内容 |
| {m} | 匹配前一个内容的m次 |
| {m} | 匹配前一个内容的大于m次 |
| {m,n} | 匹配前一个内容的m到n次 |
更多详情见请继续阅读下一页的精彩内容: http://www.linuxidc.com/Linux/2014-06/103204p2.htm