本节关键字:Linux、Bash Shell、正则表达式
相关指令:grep、sed
正则表达式(Regular Expression、regex或regexp,缩写为RE),也译为正规表示法、常规表示法,是一种字符模式,用于在查找过程中匹配指定的字符。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。
支持正则表达式的程序如:locate |find| vim| grep| sed |awk
元字符:指那些在正则表达式中具有特殊意义的专用字符,例如:点(.)、星(*)、问号(?)等
前导字符:位于元字符前面的字符,例如:ab**c***、aoo**o.**
元字符 | 功能 | 备注 |
---|---|---|
. | 匹配除了换行符以外的任意单个字符 | |
* | 前导字符出现0次或连续多次 | |
.* | 任意长度字符 | ab.* |
^ | 行首(以…开头) | ^root |
$ | 行尾(以…结尾) | bash$ |
^$ | 空行 | |
[] | 匹配括号里任意单个字符或一组单个字符 | [abc] |
[^] | 匹配不包含括号里任一单个字符或一组单个字符 | [^abc] |
^[] | 匹配以括号里任意单个字符或一组单个字符开头 | ^[abc] |
^[^] | 匹配不以括号里任意单个字符或一组单个字符开头 | ^[^abc] |
元字符 | 功能 | 备注 |
---|---|---|
\< | 取单词的头 | |
\> | 取单词的尾 | |
\< \> | 精确匹配 | |
\{n\} | 匹配前导字符连续出现n次 | |
\{n,\} | 匹配前导字符至少出现n次 | |
\{n,m\} | 匹配前导字符出现n次与m次之间 | |
\( \) | 保存被匹配的字符 | |
\d | 匹配数字(grep -P) | [0-9] |
\w | 匹配字母数字下划线(grep -P) | [a-zA-Z0-9_] |
\s | 匹配空格、制表符、换页符(grep -P) | [\t\r\n] |
需求:将10.1.1.1替换成10.1.1.254
# vim编辑器支持正则表达式
$ vim 1.txt
:%s#\(10.1.1\).1#\1.254#g
:%s/\(10.1.1\).1/\1.254/g
# sed支持正则表达式
$ sed -n 's#\(10.1.1\).1#\1.254#p' 1.txt
# 说明:
# 找出含有10.1.1的行,同时保留10.1.1并标记为标签1,
# 之后可以使用\1来引用它。最多可以定义9个标签,从左边开始编号,最左边的是第一个。
需求:将helloworld yourself 换成hellolilei myself
$ vim 1.txt
:%s#\(hello\)world your\(self\)#\1lilei my\2#g
$ sed -n 's/\(hello\)world your\(self\)/\1lilei my\2/p' 1.txt
$ sed -n 's/helloworld yourself/hellolilei myself/p' 1.txt
$ sed -n 's/\(hello\)world your\(self\)/\1lilei my\2/p' 1.txt
Perl内置正则:
正则语法 | 说明 |
---|---|
\d | 匹配数字 [0-9] |
\w | 匹配字母数字下划线[a-zA-Z0-9_] |
\s | 匹配空格、制表符、换页符[\t\r\n] |
$ grep -P '\d' 1.txt
$ grep -P '\w' 2.txt
$ grep -P '\s' 3.txt
扩展元字符 | 功能 | 备注 |
---|---|---|
+ | 匹配一个或多个前导字符 | bo+ 匹配boo、 bo |
? | 匹配零个或一个前导字符 | bo? 匹配b、 bo |
| | 或 | 匹配a或b |
() | 组字符(看成整体) | (my|your)self:表示匹配myself或匹配yourself |
{n} | 前导字符重复n次 | |
{n,} | 前导字符重复至少n次 | |
{n,m} | 前导字符重复n到m次 |
使用提示:
- grep要用必须加 -E 或者使用egrep
- sed要用必须加 -r
$ grep "root|ftp|adm" /etc/passwd
$ egrep "root|ftp|adm" /etc/passwd
$ grep -E "root|ftp|adm" /etc/passwd
$ grep -E 'o+gle' test.txt
$ grep -E 'o?gle' test.txt
$ egrep 'go{2,}' 1.txt
$ egrep '(my|your)self' 1.txt
# 使用正则过滤出文件中的IP地址:
$ grep '[0-9]\{2\}\.[0-9]\{1\}\.[0-9]\{1\}\.[0-9]\{1\}' 1.txt
$ grep '[0-9]{2}\.[0-9]{1}\.[0-9]{1}\.[0-9]{1}' 1.txt
$ grep -E '[0-9]{2}\.[0-9]{1}\.[0-9]{1}\.[0-9]{1}' 1.txt
$ grep -E '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' 1.txt
$ grep -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt
表达式 | 功能 | 示例 |
---|---|---|
[:alnum:] | 字母与数字字符 | [[:alnum:]]+ |
[:alpha:] | 字母字符(包括大小写字母) | [[:alpha:]]{4} |
[:blank:] | 空格与制表符 | [[:blank:]]* |
[:digit:] | 数字 | [[:digit:]]? |
[:lower:] | 小写字母 | [[:lower:]]{4,} |
[:upper:] | 大写字母 | [[:upper:]]+ |
[:punct:] | 标点符号 | [[:punct:]] |
[:space:] | 包括换行符,回车等在内的所有空白 | [[:space:]]+ |
$ grep -E '^[[:digit:]]+' 1.txt
$ grep -E '^[^[:digit:]]+' 1.txt
$ grep -E '[[:lower:]]{4,}' 1.txt
需求 | 解决方案 |
---|---|
找数字 | [0-9] |
找字母 | [a-zA-Z] |
找标点符号 | [[:punct:]] |
需求 | 解决方案 |
---|---|
以什么为首 | ^key |
以什么结尾 | key$ |
包含什么或不包含什么 | [abc] ^[abc] [^abc] ^[^abc] |
需求 | 解决方案 |
---|---|
找前导字符出现0次或连续多次 | ab* |
找任意单个(一次)字符 | ab. |
找任意字符 | ab.* |
找前导字符连续出现几次 | {n} {n,m} {n,} |
找前导字符出现1次或多次 | go+ |
找前到字符出现0次或1次 | go? |
元字符 | 功能 | 示例 |
---|---|---|
* | 前导字符出现0次或者连续多次 | ab* abbbb |
. | 除了换行符以外,任意单个字符 | ab. ab8 abu |
.* | 任意长度的字符 | ab.* adfdfdf |
[] | 括号里的任意单个字符或一组单个字符 | [abc][0-9][a-z] |
[^] | 不匹配括号里的任意单个字符或一组单个字符 | [^abc] |
^[] | 匹配以括号里的任意单个字符开头 | ^[abc] |
[] | 不匹配以括号里的任意单个字符开头 | |
^ | 行的开头 | ^root |
$ | 行的结尾 | bash$ |
^$ | 空行 | |
\{n\}和{n} | 前导字符连续出现n次 | [0-9]\{3\} |
\{n,\}和{n,} | 前导字符至少出现n次 | [a-z]{4,} |
\{n,m\}和{n,m} | 前导字符连续出现n-m次 | go{2,4} |
\<\> | 精确匹配单词 | \<hello\> |
\(\) | 保留匹配到的字符 | \(hello\) |
+ | 前导字符出现1次或者多次 | [0-9]+ |
? | 前导字符出现0次或者1次 | go? |
| | 或 | root|ftp |
() | 组字符 | (hello|world)123 |
\d | perl内置正则 | grep -P \d+ |
\w | 匹配字母数字下划线 |
1、查找不以大写字母开头的行(三种写法)。
$ grep '^[^A-Z]' 2.txt
$ grep -v '^[A-Z]' 2.txt
$ grep '^[^[:upper:]]' 2.txt
2、查找有数字的行(两种写法)
$ grep '[0-9]' 2.txt
$ grep -P '\d' 2.txt
3、查找一个数字和一个字母连起来的
$ grep -E '[0-9][a-zA-Z]|[a-zA-Z][0-9]' 2.txt
4、查找不以r开头的行
$ grep -v '^r' 2.txt
$ grep '^[^r]' 2.txt
5、查找以数字开头的
$ grep '^[0-9]' 2.txt
6、查找以大写字母开头的
$ grep '^[A-Z]' 2.txt
7、查找以小写字母开头的
$ grep '^[a-z]' 2.txt
8、查找以点结束的
$ grep '\.$' 2.txt
9、去掉空行
$ grep -v '^$' 2.txt
10、查找完全匹配abc的行
$ grep '\<abc\>' 2.txt
11、查找A后有三个数字的行
$ grep -E 'A[0-9]{3}' 2.txt
$ grep 'A[0-9]\{3\}' 2.txt
12、统计root在/etc/passwd里出现了几次
$ grep -o 'root' 1.txt |wc -l
13、用正则表达式找出自己的IP地址、广播地址、子网掩码
$ ifconfig eth0|grep Bcast|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'
$ ifconfig eth0|grep Bcast| grep -E -o '([0-9]{1,3}.){3}[0-9]{1,3}'
$ ifconfig eth0|grep Bcast| grep -P -o '\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}'
$ ifconfig eth0|grep Bcast| grep -P -o '(\d{1,3}.){3}\d{1,3}'
$ ifconfig eth0|grep Bcast| grep -P -o '(\d+.){3}\d+'
$ egrep --color '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' /etc/sysconfig/network-scripts/ifcfg-eth0
$ egrep --color '[[:digit:]]{1,3}\.[[:digit:]]{1,3}\.[[:digit:]]{1,3}\.[[:digit:]]{1,3}' /etc/sysconfig/network-scripts/ifcfg-eth0
14、找出文件中的ip地址并且打印替换成172.16.2.254
$ grep -o -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt |sed -n 's/192.168.0.\(254\)/172.16.2.\1/p'
15、找出文件中的ip地址
$ grep -o -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt
16、找出全部是数字的行
$ grep -E '^[0-9]+$' test
17、找出邮箱地址
$ grep -E '^[0-9]+@[a-z0-9]+\.[a-z]+$'
帮助说明
$ grep --help
# 匹配模式选择:
# Regexp selection and interpretation:
-E, --extended-regexp 扩展正则
-G, --basic-regexp 基本正则
-P, --perl-regexp 调用perl的正则
-e, --regexp=PATTERN use PATTERN for matching
-f, --file=FILE obtain PATTERN from FILE
-i, --ignore-case 忽略大小写
-w, --word-regexp 匹配整个单词