Linux高级文本处理之gawk语法和基础命令-服务器评测

一、引言

Awk 是一个维护和处理文本数据文件的强大语言。在文本数据有一定的格式，即每行数据包含多个以分界符分隔的字段时，显得尤其有用。即便是输入文件没有一定的格式，你仍然可以使用 awk 进行基本的处理。 Awk 当然也可以没有输入文件，那不是必须的。简言之， AWK 是一种能处理从琐碎的小事到日常例行公事的强大语言。

二、awk语法

1.基础语法：

awk [-F  field-separator] '/pattern/ {action}' input-file
(或者)
awk [-F  field-separator] '{action}' input-file

上面语法中：

-F 为字段分界符。如果不指定，默认会使用空格作为分界符。
/pattern/和{action}需要用单引号引起来。
/pattern/是可选的。如果不指定， awk 将处理输入文件中的所有记录。如果指定一个模式， awk 则只处理匹配指定的模式的记录。
{action} 为 awk 命令，可以是单个命令，也可以多个命令。整个 action(包括里面的所有命令)都必须放在{ 和 }之间。
Input-file 即为要处理的文件

实例1：打印/etc/passwd文件中mail用户所在行的用户名mail

[root@localhost ~]# grep '^mail' /etc/passwd
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
[root@localhost ~]# awk -F: '/mail/{print $1}' /etc/passwd #-F ":"也是正确的
mail

2.awk脚本：

当需要执行很多 awk 命令时，可以把/pattern/{action}这一部分放到单独的文件中，然后调用它:

awk –Fs –f myscript.awk input-file  #[-F  field-separator]简写 -FS

也可以在这个文件中设置字段分界符(后面详述)，然后调用:

awk –f myscript.awk input-file

二、Awk 程序结构(BEGIN,body,END)区域

1.BEGIN 区域

Begin 区域的语法:

BEGIN { awk-commands }

说明：BEGIN 区域的命令只最开始、在 awk 执行 body 区域命令之前执行一次。

BEGIN 区域很适合用来打印报文头部信息，以及用来初始化变量。
BEGIN 区域可以有一个或多个 awk 命令
关键字 BEGIN 必须要用大写
BEGIN 区域是可选的

2.body 区域

body 区域的语法:

/pattern/ {action}

body 区域的命令每次从输入文件读取一行就会执行一次
如果输入文件有 10 行，那 body 区域的命令就会执行 10 次(每行执行一次)
Body 区域没有用任何关键字表示，只有用正则模式和命令。

3.END block

END 区域的语法:

END { awk-commands }
END 区域在 awk 执行完所有操作后执行，并且只执行一次。
END 区域很适合打印报文结尾信息，以及做一些清理动作
END 区域可以有一个或多个 awk 命令
关键字 END 必须要用大写
END 区域是可选的

awk执行流程图：

实例1：

[root@localhost ~]# awk '
> BEGIN{FS=":";print "----header----"}   #打印内容字符串要用双引号，单引号有语法错误
> /mail/{print $1}
> END{print "----footer----"}
> ' /etc/passwd

----header----
mail
----footer----

提示：如果命令很长，即可以放到单行执行，也可以用\折成多行执行。

实例2：通过awk脚本执行实例1中的命令

[root@localhost ~]# cat myscript.awk 
BEGIN{
FS=":"
print "----header----"
}

/mail/{
print $1
}

END{
print "----footer----"
}
[root@localhost ~]# awk -f myscript.awk /etc/passwd
----header----
mail
----footer----

说明：awk 脚本中，注释以#开头。

只使用 BEGIN 区域在 awk 中是符合语法的。在没有使用 body 区域时，不需要指定输入文件，因为 body 区域只在输入文件上执行。所以在执行和输入文件无关的工作时，可以只使用 BEGIN 区域。

实例3：只使用BEGIN无输入文件

[root@localhost ~]# awk 'BEGIN{print "HELLO WORLD"}'
HELLO WORLD

4.多个输入文件:

awk 指定多个输入文件。如果指定了两个文件，那么 body 区域会首先在第一个文件的所有行上执行，然后在第二个文件的所有行上执行。

实例4：多文件处理

[root@localhost ~]# awk -F: '
> BEGIN{print "----header----"}
> /mail/{print $1}
> END{print "----footer----"}
> ' /etc/passwd /etc/group
----header----
mail
mail
----footer----

注意：即是指定了多个文件， BEGIN 和 END 区域，仍然只会执行一次。

三、打印命令

默认情况下，awk 的打印命令 print(不带任何参数)会打印整行数据。下面的例子等价于”cat employee.txt”命令。

实例1：不带参数

[root@localhost ~]# awk '{print}' emp
101,John Doe,CEO
102,Jason Smith,IT Manager
103,Raj Reddy,Sysadmin
104,Anand Ram,Developer
105,Jane Miller,Sales Manager

实例2：也可以通过传递变量”$字段序号”作为 print 的参数来指定要打印的字段。

[root@localhost ~]# awk '{print $2}' ./emp  #默认以空格为分隔符
Doe,CEO
Smith,IT
Reddy,Sysadmin
Ram,Developer
Miller,Sales

实例3：输出雇员姓名与职位

[root@localhost ~]# cat emp
101,John Doe,CEO
102,Jason Smith,IT Manager
103,Raj Reddy,Sysadmin
104,Anand Ram,Developer
105,Jane Miller,Sales Manager

[root@localhost ~]# awk '
>BEGIN{FS=",";print "-------\nNAME  Title\n--------\n"}
>{print $2,"\t",$3}  #打印多变量，之间用逗号或者空格分隔
>END{print "----------------"}' emp
-------
NAME  Title
--------

John Doe         CEO
Jason Smith      IT Manager
Raj Reddy        Sysadmin
Anand Ram        Developer
Jane Miller      Sales Manager
----------------

说明：请注意， $0 代表整条记录。下面两个命令是等价的，都打印 employee.txt 的所有行:

awk '{print}' emp
awk '{print $0}' emp

四、模式匹配

只在匹配特殊模式的行数执行 awk 命令。

实例1：只处理匹配行

[root@localhost ~]# awk -F, '/Manager/{print $2,$3}' emp
Jason Smith IT Manager
Jane Miller Sales Manager

实例2：只打印雇员 id 为 102 的雇员的信息

[root@localhost ~]# awk -F, '/^102/{print "Emp is 102 is",$2}' emp 
Emp is 102 is Jason Smith

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-02/140316.htm

Linux高级文本处理之gawk语法和基础命令

相关推荐

分类

听说打赏我的人，都进福布斯排行榜啦！

支付宝扫一扫打赏

微信扫一扫打赏

QQ咨询

回顶部