正则表达式

248次阅读

没有评论

共计 3579 个字符，预计需要花费 9 分钟才能阅读完成。

处理海量日志对每一个运维来说都非常的头疼，日志分析我们首先需要把需要的数据从海量的日志中匹配出来，降低数据量，然后在分析这些日志。那么从海量的日志中把我们需要的日志找出来就需要我们写一个公式来匹配，那么如何才能写一个这样的公式呢？

这节课我就给大家说说正则表达式，看起来比较高大上，其实就是通过给定的符号生成一个字符串匹配的公式，通过该公式把需要的数据匹配出来。

比如

匹配正确的 IP 地址
匹配正确的 e -mail 地址

正则表达式（Regular Expression、regex 或 regexp，缩写为 RE），也译为正规表示法、常规表示法，是一种字符模式，用于在查找过程中匹配指定的字符。

许多程序设计语言都支持利用正则表达式进行 字符串操作。例如，在 Perl 中就内建了一个功能强大的正则表达式引擎。

正则表达式这个概念最初是由 Unix 中的工具软件（例如 sed 和 grep）普及开的。

支持正则表达式的程序如：locate |find| vim| grep| sed |awk

正则表达式是一个三方产品，被常用计算机语言广泛使用，比如：shell、PHP、python、java、js 等！

 [root@manage01 ~]# locate sko
locate: 无法执行 stat () `/var/lib/mlocate/mlocate.db': 没有那个文件或目录
 
使用 updatedb 生成数据文件
[root@manage01 ~]# updatedb

定位符使用技巧：同时锚定开头和结尾，做精确匹配；单一锚定开头或结尾或者不锚定的，做模糊匹配。

定位符	说明
^	锚定开头 ^a 以 a 开头默认锚定一个字符
$	锚定结尾 a$ 以 a 结尾默认锚定一个字符

测试案例

 1）精确匹配  以 a 开头 c 结尾的字符串
[root@zutuanxue ~]# egrep "^ac$" file 
ac
 
2）模糊匹配  以 a 开头
[root@zutuanxue ~]# egrep "^a" file 
ac
ab
abbc
abcc
aabbcc
abbbc
abbbbbc
acc
abc
asb
aa
a_c
aZc
aAAAAc
a c
abababab
a3c
 
 
3）模糊匹配 以 c 结尾的字符串
[root@zutuanxue ~]# egrep "c$" file 
ac
abbc
abcc
aabbcc
abbbc
abbbbbc
acc
abc
a_c
aZc
aAAAAc
a c
ccc
a3c

匹配符: 匹配字符串

匹配符	说明
.	匹配除回车以外的任意一个字符
()	字符串分组
[]	定义字符类，匹配括号中的一个字符
[^]	表示否定括号中出现字符类中的字符,取反。
\	转义字符
\|		或

测试案例

 1）精确匹配  以 a 开头 c 结尾  中间任意  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a.c$" file 
acc
abc
a_c
aZc
a c
a3c
 
2）模糊匹配  以 cc 结尾的字符串   因为 $ 只能锚定单个字符，如果是一个字符串就需要用 () 来做定义
[root@zutuanxue ~]# egrep "(cc)$" file 
abcc
aabbcc
acc
ccc
 
3）精确匹配  以 a 开头 c 结尾  中间是 a -z,0-9  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[a-z0-9]c$" file 
acc
abc
a3c
 
4)精确匹配  以 a 开头 c 结尾  中间不包含 a -z,0-9  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[^a-z0-9]c$" file 
a_c
aZc
a c
 
5）精确匹配  以 e 开头 f 结尾  中间是 * 号  长度为三个字节的字符串  e*f
[root@zutuanxue ~]# egrep "^e\*f$" file 
e*f
 
6）精确匹配 以 a 开头 b 或 c 结尾  中间是任意  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a.(b|c)$" file 
acc
abc
asb
a_c
aZc
a c
a3c

限定符: 对前面的字符或者 (字符串) 出现的次数做限定说明

限定符	说明
*	某个字符之后加星号表示该字符不出现或出现多次 a* (ab)*
？	与星号相似，但略有变化，表示该字符出现一次或不出现
+	与星号相似，表示其前面字符出现一次或多次，但必须出现一次
{n,m}	某个字符之后出现，表示该字符最少 n 次，最多 m 次
{m}	正好出现了 m 次

测试案例

 1）精确匹配 以 a 开头 c 结尾 中间是有 b 或者没有 b 长度不限的字符串
[root@zutuanxue ~]# egrep "^ab*c$" file 
ac
abbc
abbbc
abbbbbc
abc
 
2）精确匹配 以 a 开头 c 结尾 中间只出现一次 b 或者没有 b 的字符串
[root@zutuanxue ~]# egrep "^ab?c$" file 
ac
abc
 
3）精确匹配 以 a 开头 c 结尾 中间是有 b 且至少出现一次 长度不限的字符串
[root@zutuanxue ~]# egrep "^ab+c$" file 
abbc
abbbc
abbbbbc
abc
 
4）精确匹配 以 a 开头 c 结尾 中间是有 b 且至少出现两次最多出现四次 长度不限的字符串
[root@zutuanxue ~]# egrep "^ab{2,4}c$" file 
abbc
abbbc
 
5）精确匹配 以 a 开头 c 结尾 中间是有 b 且正好出现三次的字符串
[root@zutuanxue ~]# egrep "^ab{3}c$" file 
abbbc
 
6) 精确匹配 以 a 开头 c 结尾 中间是有 b 且至少出现一次的字符串
[root@zutuanxue ~]# egrep "^ab{1,}c$" file 
abbc
abbbc
abbbbbc
abc

posix 字符一次只匹配一个范围中的一个字节

特殊字符	说明
[:alnum:]	匹配任意字母字符 0 -9 a-z A-Z
[:alpha:]	匹配任意字母，大写或小写
[:digit:]	数字 0-9
[:graph:]	非空字符(非空格控制字符)
[:lower:]	小写字符 a -z
[:upper:]	大写字符 A -Z
[:cntrl:]	控制字符
[:print:]	非空字符(包括空格)
[:punct:]	标点符号
[:blank:]	空格和 TAB 字符
[:xdigit:]	16 进制数字
[:space:]	所有空白字符(新行、空格、制表符)

测试案例

 注意 [[]]  双中括号的意思:  第一个中括号是匹配符[] 匹配中括号中的任意一个字符，第二个[] 是格式 如[:digit:]
 
1）精确匹配  以 a 开头 c 结尾  中间 a -zA-Z0-9任意字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:alnum:]]c$" file
acc
abc
aZc
a3c
 
2）精确匹配  以 a 开头 c 结尾  中间是 a -zA- Z 任意字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:alpha:]]c$" file
acc
abc
aZc
 
 
3）精确匹配  以 a 开头 c 结尾  中间是 0-9 任意字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:digit:]]c$" file
a3c
 
4）精确匹配  以 a 开头 c 结尾  中间是 a - z 任意字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:lower:]]c$" file
acc
abc
 
 
4）精确匹配  以 a 开头 c 结尾  中间是 A - Z 任意字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:upper:]]c$" file
aZc
 
5）精确匹配  以 a 开头 c 结尾  中间是非空任意字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:print:]]c$" file
acc
abc
a_c
aZc
a c
a3c
 
6）精确匹配  以 a 开头 c 结尾  中间是符号字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:punct:]]c$" file
a_c
 
7）精确匹配  以 a 开头 c 结尾  中间是空格或者 TAB 符字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:blank:]]c$" file
a c
 
类似
[root@zutuanxue ~]# egrep "^a[[:space:]]c$" file
a c
 
8）精确匹配  以 a 开头 c 结尾  中间是十六进制字符  长度为三个字节的字符串
[root@zutuanxue ~]# egrep "^a[[:xdigit:]]c$" file
acc
abc
a3c

说明：特殊字符和 POSIX 字符是两套字符，都可以完成需要的匹配，大家学习的时候最少要记住一套字符并熟练应用。

 1、IP 匹配公式
grep '^((25[0-5]|2[0-4][[:digit:]]|[01]?[[:digit:]][[:digit:]]?).){3}(25[0-5]|2[0-4][[:digit:]]|[01]?[[:digit:]][[:digit:]]?)$' --color ip_base
2、E-MAIL 地址匹配公式

正文完

星哥玩云-微信公众号

正则表达式

发表至： linux教程

2022-06-09

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

JAVA 中 string 和 int 互相转化

Linux 中获取文件完整路径的4种方法介绍

Linux基础教程之进程查看和管理及作业控制

最最基础的干货：Linux中的绝对路径和相对路径

【技术快报】5.16-5.22

Linux 系统调用的初学技巧

LNMP笔记：安装vsftpd配置FTP账户

一个伴随我半年的疑难故障

流程控制-case语句

正则表达式

正则表达式

1、正则表达式介绍

2、正则表达式特殊字符

3、正则表达式 POSIX 字符

4、练习案例

申请腾讯混元的API Key并且使用LobeChat调用混元AI

Docker部署搭建一个开源强大的图书管理系统

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

实例：同步阿里云RDS库到自建mysql库

zabbix监控运维使用zatree扩展

在日常生活、工作中deepseek能帮我们解决哪些问题

通知：阿里云对象存储OSS价格下调（最高优惠降幅55%）

今天聊聊：每个 Linux 新手都应该知道的四个命令

	[root@manage01 ~]# locate sko
	locate: 无法执行 stat () `/var/lib/mlocate/mlocate.db': 没有那个文件或目录

	使用 updatedb 生成数据文件
	[root@manage01 ~]# updatedb

	1）精确匹配以 a 开头 c 结尾的字符串
	[root@zutuanxue ~]# egrep "^ac$" file
	ac

	2）模糊匹配以 a 开头
	[root@zutuanxue ~]# egrep "^a" file
	ac
	ab
	abbc
	abcc
	aabbcc
	abbbc
	abbbbbc
	acc
	abc
	asb
	aa
	a_c
	aZc
	aAAAAc
	a c
	abababab
	a3c


	3）模糊匹配以 c 结尾的字符串
	[root@zutuanxue ~]# egrep "c$" file
	ac
	abbc
	abcc
	aabbcc
	abbbc
	abbbbbc
	acc
	abc
	a_c
	aZc
	aAAAAc
	a c
	ccc
	a3c

	1）精确匹配以 a 开头 c 结尾中间任意长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a.c$" file
	acc
	abc
	a_c
	aZc
	a c
	a3c

	2）模糊匹配以 cc 结尾的字符串因为 $ 只能锚定单个字符，如果是一个字符串就需要用 () 来做定义
	[root@zutuanxue ~]# egrep "(cc)$" file
	abcc
	aabbcc
	acc
	ccc

	3）精确匹配以 a 开头 c 结尾中间是 a -z,0-9 长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[a-z0-9]c$" file
	acc
	abc
	a3c

	4)精确匹配以 a 开头 c 结尾中间不包含 a -z,0-9 长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[^a-z0-9]c$" file
	a_c
	aZc
	a c

	5）精确匹配以 e 开头 f 结尾中间是 * 号长度为三个字节的字符串 e*f
	[root@zutuanxue ~]# egrep "^e\*f$" file
	e*f

	6）精确匹配以 a 开头 b 或 c 结尾中间是任意长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a.(b\|c)$" file
	acc
	abc
	asb
	a_c
	aZc
	a c
	a3c

	1）精确匹配以 a 开头 c 结尾中间是有 b 或者没有 b 长度不限的字符串
	[root@zutuanxue ~]# egrep "^ab*c$" file
	ac
	abbc
	abbbc
	abbbbbc
	abc

	2）精确匹配以 a 开头 c 结尾中间只出现一次 b 或者没有 b 的字符串
	[root@zutuanxue ~]# egrep "^ab?c$" file
	ac
	abc

	3）精确匹配以 a 开头 c 结尾中间是有 b 且至少出现一次长度不限的字符串
	[root@zutuanxue ~]# egrep "^ab+c$" file
	abbc
	abbbc
	abbbbbc
	abc

	4）精确匹配以 a 开头 c 结尾中间是有 b 且至少出现两次最多出现四次长度不限的字符串
	[root@zutuanxue ~]# egrep "^ab{2,4}c$" file
	abbc
	abbbc

	5）精确匹配以 a 开头 c 结尾中间是有 b 且正好出现三次的字符串
	[root@zutuanxue ~]# egrep "^ab{3}c$" file
	abbbc

	6) 精确匹配以 a 开头 c 结尾中间是有 b 且至少出现一次的字符串
	[root@zutuanxue ~]# egrep "^ab{1,}c$" file
	abbc
	abbbc
	abbbbbc
	abc

	注意 [[]] 双中括号的意思: 第一个中括号是匹配符[] 匹配中括号中的任意一个字符，第二个[] 是格式如[:digit:]

	1）精确匹配以 a 开头 c 结尾中间 a -zA-Z0-9任意字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:alnum:]]c$" file
	acc
	abc
	aZc
	a3c

	2）精确匹配以 a 开头 c 结尾中间是 a -zA- Z 任意字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:alpha:]]c$" file
	acc
	abc
	aZc


	3）精确匹配以 a 开头 c 结尾中间是 0-9 任意字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:digit:]]c$" file
	a3c

	4）精确匹配以 a 开头 c 结尾中间是 a - z 任意字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:lower:]]c$" file
	acc
	abc


	4）精确匹配以 a 开头 c 结尾中间是 A - Z 任意字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:upper:]]c$" file
	aZc

	5）精确匹配以 a 开头 c 结尾中间是非空任意字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:print:]]c$" file
	acc
	abc
	a_c
	aZc
	a c
	a3c

	6）精确匹配以 a 开头 c 结尾中间是符号字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:punct:]]c$" file
	a_c

	7）精确匹配以 a 开头 c 结尾中间是空格或者 TAB 符字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:blank:]]c$" file
	a c

	类似
	[root@zutuanxue ~]# egrep "^a[[:space:]]c$" file
	a c

	8）精确匹配以 a 开头 c 结尾中间是十六进制字符长度为三个字节的字符串
	[root@zutuanxue ~]# egrep "^a[[:xdigit:]]c$" file
	acc
	abc
	a3c

	1、IP 匹配公式
	grep '^((25[0-5]\|2[0-4][[:digit:]]\|[01]?[[:digit:]][[:digit:]]?).){3}(25[0-5]\|2[0-4][[:digit:]]\|[01]?[[:digit:]][[:digit:]]?)$' --color ip_base
	2、E-MAIL 地址匹配公式