目录
一个正则表达式就是描述了一个字符串集合的方式。正则表达式的表示就是一些特殊符号的组合,而每个符号代表着一些具体的意思。符合的组合就定义了一套规则和方法,其主要作用就是从大量文本从匹配出符合条件行。
在Linux中,正则表达式的主要使用场景就是文本处理三剑客。grep,sed,awk .除此之外,vi指令也支持正则表达式。
在正则表达式中,又可以分为基本正则表达式和扩展正则表达式 。其主要区别在于:
基本正则表达式只认识元字符,其元字符主要包括:^ $ . [] * ,具体含义见下表格
扩展正则表达式有添加了() {} ? + | 等符号
以下为各个元字符的含义
元字符 | 含义 | 实例 |
---|---|---|
^ | 匹配行首 | ^abc : 匹配以abc开头的字符 |
$ | 匹配行尾 | abc$ : 匹配以abc结尾的字符 |
^$ | 空行 | 表示空行的意思 |
. | 匹配任意单个字符 | .a : 匹配任意和a结合的两个字符,其中必须是在后面 |
* | 字符* 匹配0或多个此字符 | *.a : 匹配任意个一个或多个含有a的字符 |
.* | 代表任意多个字符 | 就是代表任意多个字符 |
\ | 屏蔽一个元字符的特殊含义 | 表示去掉有意义的元字符的含义 |
[] | 匹配中括号内的字符 | [abc] : 代表匹配a或b或c |
[^abc] | 匹配不包含括号内的任意字符 | [^abc] : 代表对abc的取反 ,这个^abc意义不同。 |
扩展正则中支持的字符
字符 | 含义 | 实例 |
---|---|---|
+ | 重复前一个字符一次或多次 | a+ : 匹配包含一个a或多个a的字符 。 |
? | 重复前面一个字符0次或一次 | a? :匹配包含0个或一个a字符 |
| | 同时匹配|两边的字符 | "abc\|bcd " : 匹配包含abc或bcd 的字符 |
() | 可以和()的字符分组匹配 | “abc (d\|e\|f) ” :匹配abcd,abce,abcf 字符 |
{} | 匹配前面字符的次数 | |
{n} | “abc{2} ” : 至少匹配abc 两次 | |
{n,m} | “abc{2,5} ” : 匹配abc 两到五次 |
预定义字符类
正则表达式 | 描述 | 示例 |
---|---|---|
[:alnum:] | [a-zA-Z0-9]匹配任意一个字母或数字字符 | [[:alnum:]]+ |
[:alpha:] | 匹配任意一个字母字符(包括大小写字母) | [[:alpha:]] |
[:blank:] | 空格与制表符(横向纵向) | [[:blank:]] |
[:digit:] | 匹配任意一个数字字符 | [[:digit:]]+ |
[:lower:] | 匹配小写字母 | [[:lower:]] |
[:upper:] | 匹配大写字母 | [[:upper:]] |
[:punct:] | 匹配标点符号 | [[:punct:]] |
[:space:] | 匹配一个包括换行符,回车等在内的所有空白符 | [[:space:]]+ |
[:graph:] | 匹配任何一个可以看得见的且可以打印的字符 | [[:graph:]] |
[:xdigit:] | 任何一个十六进制数 | [[:xdigit:]]+ |
[:cntrl:] | 任何一个控制字符(ASCII字符集中的前32个字符) | [[:cntrl:]] |
[:print:] | 任何一个可以打印的字符 | [[:print:]] |
在上面我们提到正则包括基础正则和扩展正则,但是它们有什么区别呢?在什么地方使用呢 ? 接下来我们主要说明在Linux 三剑客中的不同(grep,sed,awk)
grep : 在grep中,如果只是使用grep ,那只能使用原字符的正则以及预定义字符类,而若想使用扩展正则中包含的字符,就必须在grep后加参数-E 。
sed :若要使用而扩展正则中包含的字符,就必须在sed后加参数-r。
用于打印匹配给定模式的行
grep [options] PATTERN [FILE...] ? grep [options] [-e PATTERN | -f FILE] [FILE...]
grep指令用于搜索所给定的模式(PATTERN )的FILE 文件里的内容 ,如果从文件内容里找到了该模式的文件内容,grep会把匹配的该行显示出来。若不指定任何文件,或给的文件名为- , 则grep会从标准输入读取内容。
?另外,也可以使用两个变种程序 egrep 和 fgrep 。 Egrep 与 grep -E 相同。 Fgrep 与 grep -F 相同。
说明: 以下的NUM代表的是一个数字,代表的是行数
-A NUM 或者 --after-context=NUM
除了显示符合条件的那一行之外,并显示该行之后NUM行的内容
-a 或者--text
将一个二进制文件视为一个文本文件来处理;它与--binary-files=text 选项等价。
-B NUM 或者--before-context=NUM
除了显示符合条件的那一行之外,并显示该行之前NUM行的内容。
-C NUM 或者--context=NUM
除了显示符合条件的那一行之外,并显示该行之前和之后的NUM行的内容
-b 或者--byte-offset
在输出的每行前面同时打印出当前行在输入文件中的字节偏移量。
--colour[=WHEN] 或者 --color[=WHEN]
在匹配的行中,已匹配到字符串进行着色显示。WHEN可以是never,always,或是auto。
-c 或者--count
计算符合条件的行数
-d ACTION 或者 --directories=ACTION
如果输入文件是一个目录,使用动作ACTION来处理它。
默认情况下,动作ACTION是read,意味着目录将视为普通文件那样来读。
如果动作 ACTION是skip ,将不处理而直接跳过目录。
如果动作ACTION是recurse,grep 将递归地读每一目录下的所有文件。这样做和-r选项等价。
-E 或者 --extended-regexp
将E后面的模式作为一个正则表达式来使用。
-e PATTERN 或者 --regexp=PATTERN
使用PATTERN作为查找文件内容的模式(支持正则),但是在单条命令中可使用多个-e选项
-F 或者 --fixed-strings
将模式 PATTERN 视为一个固定的字符串的列表,用新行 (newlines) 分隔,只要匹配其中之一即可。
-f FILE 或者--file=FILE
从文件 FILE 中获取模式,每行一个。空文件含有0个模式,因此不匹配任何东西。
-G 或者--basic-regexp
将模式 PATTERN 作为一个基本的正则表达式这是默认值。
-H 或者 --with-filename
为每个匹配打印文件名。
-h 或者 --no-filename
当搜索多个文件时,禁止在输出的前面加上文件名前缀。
-i 或者 --ignore-case
忽略大小写的区别
-L 或者 --files-without-match
打印在文件内容中无法找到匹配后的文件名称
-l 或者 --files-with-matches
打印出在文件内容中找到匹配后的文件名
-m NUM 或者 --max-count=NUM
在找到NUM个匹配的行之后,不再读这个文件。
-n 或者 --line-number
在输出的每行前面加上它所在的文件中它的行号。
-o 或者 --only-matching
只显示匹配的行中与 PATTERN 相匹配的部分。
--label=LABEL
将来自标准输入的匹配输出视为来自输入文件LABEL的值
--line-buffering
使用行缓冲,it can be a performance penality.
-q, --quiet, --silent
不显示任何信息。
-R, -r, --recursive
递归地读每一目录下的所有文件。这样做和 -d recurse选项等价。
--include=PATTERN
仅仅在搜索匹配 PATTERN 的文件时在目录中递归搜索。
--exclude=PATTERN
在目录中递归搜索,但是跳过匹配 PATTERN 的文件。
-s 或者 --no-messages
禁止输出关于文件不存在或不可读的错误信息。
-u 或者 --unix-byte-offsets
报告Unix风格的字节偏移量。这个开关使得grep报告字节偏移量时,将文件作为Unix
风格的文本文件看待,也就是说将CR字符去掉。这将产生与在一台Unix主机上运行grep完全相同的结果。除非同时使用-b选项,否则这个选项无效。这个选项在MS-DOS和MS-Windows之外的系统中无效。
-V 或者 --version
向标准错误输出打印 grep 的版本号。
-v 或者 invert-match
显示不包含匹配模式的所有行。
-w 或者 --word-regexp
只选择含有能组成完整的词的匹配的行。判断方法是匹配的子字符串必须是一行的开始,或者是在一个不可能
-x 或者 --line-regexp
完全匹配。
-Z, --null
文件内容全部显示,不同字体通过颜色加以标注
虽然在上面我们可以看到,grep中有很多选项,但是在工作中,大多数的选项是用不到的,这里我们划一下重点。
常用参数
-E | 将后面的模式作为一个正则表达式(扩展正则) |
---|---|
-e | 支持一个命令中多个正则匹配 |
-i | 忽略大小写 |
-n | 在匹配的行前加入编号 |
-v | 只显示不匹配的行 |
使用到文件info,通过grep来进行过滤,info的文件内容如下:
查找文件info中包含ccc的内容并打印行数
grep -n "ccc" info
2.查找文件info中包含ggg且忽略大小写的字符并打印,
grep -i "ggg" info
3.过滤掉含有ccc的行
grep -v "ccc" info
?
4.查找包含ddd,eee,fff的行(注意:以下匹配用到正则)
grep -E "ddd|eee|fff" info
5.查找以c开头的行
grep ^c info
6.查找以ccx开头且结尾的行
grep ^ccx$ info
7.查找d字符前可以是任意字符的行
grep .d info
8.查找包含一个或多个d字符的行
grep -E d{1} info
9.显示包含a,b,c的字符的行 ; 显示不包含a,b,c字符的行
包含:grep -i ^[abc] info
不包含: grep -i [^abc] info (是全部字符不包含a或b或c)
10.显示包含一个或多个含有a字符的行
grep -E a+ info
11.查找以cc开头且包含c,x,ld字符的行
grep -E "cc(c|x|ld)" info
12.查找文件中所有的大写字符
grep [[:upper:]] info
13.匹配任意一个字母和数字字符
grep [[:alnum:]] info
?