Linux下过滤文本、实现高效文件操作的12个实用命令-服务器评测

我们在本文中介绍了多款在Linux下充当过滤器的命令行工具。过滤器是这样一种程序：读取标准输入后，对它执行操作，然后将结果写入到标准输出。

过滤器工具以有效的方式处理信息，比如重构输出以生成实用报告，修改文件中的文本，以及处理其他许多系统管理任务。

言归正传，下面介绍几款Linux环境下实用的文件或文本过滤器。

1.Awk命令

Awk是一种出色的模式扫描和处理语言，它可以用来在Linux下构建实用过滤器。

可以参阅awk的参考手册页，了解更多信息和用法选项：

$ man awk

Linux常用命令之awk http://www.linuxidc.com/Linux/2016-09/135046.htm

Linux系统之文本格式化工具awk http://www.linuxidc.com/Linux/2016-02/128150.htm

AWK简介及使用实例 http://www.linuxidc.com/Linux/2013-12/93519.htm

Linux awk文本分析工具 http://www.linuxidc.com/Linux/2015-12/126217.htm

Linux文本处理工具之awk http://www.linuxidc.com/Linux/2015-01/111437.htm

如何在Linux中使用awk命令 http://www.linuxidc.com/Linux/2014-10/107542.htm

文本分析工具-awk http://www.linuxidc.com/Linux/2014-12/110939.htm

AWK入门基础教程 http://www.linuxidc.com/Linux/2016-12/138138.htm

使用awk格式化输出文本 http://www.linuxidc.com/Linux/2016-04/130193.htm

2.Sed命令

sed是一种强大的流编辑器，可用于过滤和转换文本。

sed的参考手册页添加了控制选项和操作说明：

$ man sed

在sed命令中引入shell变量 http://www.linuxidc.com/Linux/2014-03/97896.htm

Linux下Shell编程——sed命令基本用法 http://www.linuxidc.com/Linux/2013-06/85526.htm

Unix文本处理工具之sed http://www.linuxidc.com/Linux/2013-08/89315.htm

sed 高级用法 http://www.linuxidc.com/Linux/2014-09/106961.htm

sed命令详解与示例 http://www.linuxidc.com/Linux/2014-11/109325.htm

Linux正则表达式sed 详述 http://www.linuxidc.com/Linux/2015-04/116309.htm

Linux常用命令：sed http://www.linuxidc.com/Linux/2016-10/136197.htm

Linux文本处理工具之sed http://www.linuxidc.com/Linux/2015-01/111436.htm

3.Grep、Egrep、Fgrep和Rgrep命令

这些过滤器输出与特定模式匹配的行。它们从文件或标准输入读取行，默认情况下将所有匹配的行打印输出到标准输出。

注意：主程序是grep，几个变种与使用特定的grep选项完全一样(它们仍可用于向后兼容)：

$ egrep = grep -E
$ fgrep = grep -F
$ rgrep = grep -r

下面是一些基本的grep命令：

linuxidc@linuxidc ~ $ grep “aaronkilik” /etc/passwd
aaronkilik:x:1001:1001::/home/aaronkilik:
linuxidc@linuxidc ~ $ cat /etc/passwd | grep “aronkilik”
aaronkilik:x:1001:1001::/home/aaronkilik:

grep使用简明及正则表达式 http://www.linuxidc.com/Linux/2013-08/88534.htm

Linux下Shell编程——grep命令的基本运用 http://www.linuxidc.com/Linux/2013-06/85525.htm

grep 命令详解及相关事例 http://www.linuxidc.com/Linux/2014-07/104041.htm

Linux基础命令之grep详解 http://www.linuxidc.com/Linux/2013-07/87919.htm

设置grep高亮显示匹配项 http://www.linuxidc.com/Linux/2014-09/106871.htm

Linux grep命令学习与总结 http://www.linuxidc.com/Linux/2014-10/108112.htm

14 个 grep 命令的例子 http://www.linuxidc.com/Linux/2015-05/117626.htm

4.head命令

head用于显示文件的最初部分，默认情况下输出头10行。你可以使用-n num标志，指定显示的行数：

linuxidc@linuxidc ~ $ head /var/log/auth.log
Jan 2 10:45:01 linuxidc CRON[3383]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan 2 10:45:01 linuxidc CRON[3383]: pam_unix(cron:session): session closed for user root
Jan 2 10:51:34 linuxidc sudo: linuxidc : TTY=unknown ; PWD=/home/linuxidc ; USER=root ; COMMAND=/usr/lib/linuxmint/mintUpdate/checkAPT.py
Jan 2 10:51:34 linuxidc sudo: pam_unix(sudo:session): session opened for user root by (uid=0)
Jan 2 10:51:39 linuxidc sudo: pam_unix(sudo:session): session closed for user root
Jan 2 10:55:01 linuxidc CRON[4099]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan 2 10:55:01 linuxidc CRON[4099]: pam_unix(cron:session): session closed for user root
Jan 2 11:05:01 linuxidc CRON[4138]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan 2 11:05:01 linuxidc CRON[4138]: pam_unix(cron:session): session closed for user root
Jan 2 11:09:01 linuxidc CRON[4146]: pam_unix(cron:session): session opened for user root by (uid=0)
linuxidc@linuxidc ~ $ head -n 5 /var/log/auth.log
Jan 2 10:45:01 linuxidc CRON[3383]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan 2 10:45:01 linuxidc CRON[3383]: pam_unix(cron:session): session closed for user root
Jan 2 10:51:34 linuxidc sudo: linuxidc : TTY=unknown ; PWD=/home/linuxidc ; USER=root ; COMMAND=/usr/lib/linuxmint/mintUpdate/checkAPT.py
Jan 2 10:51:34 linuxidc sudo: pam_unix(sudo:session): session opened for user root by (uid=0)
Jan 2 10:51:39 linuxidc sudo: pam_unix(sudo:session): session closed for user root

5.tail命令

tail输出文件的末尾部分(默认情况下是末尾10行)。使用-n num参数选项符，即可指定显示的行数。

下面这个命令会输出指定文件的末尾5行：

linuxidc@linuxidc ~ $ tail -n 5 /var/log/auth.log
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on :: port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Received SIGHUP; restarting.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on :: port 22.

此外，tail有一个特殊的选项-f，可用于实时查看文件(尤其是日志文件)的变化。

下面这个命令让你能够密切关注指定文件的变化：

linuxidc@linuxidc ~ $ tail -f /var/log/auth.log
Jan 6 12:58:01 linuxidc sshd[1269]: Server listening on :: port 22.
Jan 6 12:58:11 linuxidc sshd[1269]: Received SIGHUP; restarting.
Jan 6 12:58:12 linuxidc sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan 6 12:58:12 linuxidc sshd[1269]: Server listening on :: port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Received SIGHUP; restarting.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on :: port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Received SIGHUP; restarting.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan 6 13:01:27 linuxidc sshd[1269]: Server listening on :: port 22.

参阅tail的参考手册页，即可了解完整的用法选项和操作说明：

$ man tail

6.sort命令

sort用于排序文本文件的行或来自标准输入的行。

下面是一个名为domains.list的文件的内容：

linuxidc@linuxidc ~ $ cat domains.list
linuxidc.com
linuxidc.com
news.linuxidc.com
news.linuxidc.com
linuxsay.com
linuxsay.com
windowsmint.com
windowsmint.com

你可以运行简单的sort命令，排序文件内容，就像这样：

linuxidc@linuxidc ~ $ sort domains.list
linuxsay.com
linuxsay.com
news.linuxidc.com
news.linuxidc.com
linuxidc.com
linuxidc.com
windowsmint.com
windowsmint.com

使用sort命令有好多方式，我们编写了几篇实用文章来介绍sort命令，如下所示：

Linux中的sort命令 http://www.linuxidc.com/Linux/2016-08/134626.htm

Linux Sort命令的七个有趣实例（二） http://www.linuxidc.com/Linux/2015-05/116997.htm

7.uniq命令

uniq命令用于报告或忽略重复的行，它可以过滤来自标准输入的行，并将结果写入到标准输出。

对输入流运行sort后，可以用uniq来消除重复的行，如下面这个例子所示。

为了表明某行出现的次数，可使用-c选项，忽视大小写区别，同时通过加入-i选项来比较：

linuxidc@linuxidc ~ $ cat domains.list
linuxidc.com
linuxidc.com
news.linuxidc.com
news.linuxidc.com
linuxsay.com
linuxsay.com
windowsmint.com
sort domains.list | uniq -c
2 linuxsay.com
2 news.linuxidc.com
2 linuxidc.com
1 windowsmint.com

阅读uniq的参考手册页，可进一步了解用法信息和标志：

$ man uniq

8.fmt命令

fmt是简单的最佳文本格式器，它可以重新格式化指定文件中的段落，并将结果打印输出到标准输出。

下面是从文件domain-list.txt提取的内容：

1.linuxidc.com 2.news.linuxidc.com 3.linuxsay.com 4.windowsmint.com

要将上述内容重新格式化成标准列表，运行下面这个命令，-w参数选项符用来定义最大行宽：

linuxidc@linuxidc ~ $ cat domain-list.txt
1.linuxidc.com 2.news.linuxidc.com 3.linuxsay.com 4.windowsmint.com
linuxidc@linuxidc ~ $ fmt -w 1 domain-list.txt
1.linuxidc.com
2.news.linuxidc.com
3.linuxsay.com
4.windowsmint.com

9.pr命令

pr命令可转换文本文件或标准输入，以便打印输出。比如在Debian系统上，你可以列出所有已安装的程序包，如下所示：

$ dpkg -l

想组织整理分成页和列的列表、准备打印输出，运行下面这个命令。

linuxidc@linuxidc ~ $ dpkg -l | pr –columns 3 -l 20
2017-01-06 13:19
Page 1
Desired=Unknown/Install ii adduser ii apg
| Status=Not/Inst/Conf-　 ii adwaita-icon-theme ii app-install-data
|/ Err?=(none)/Reinst-r ii adwaita-icon-theme- ii apparmor
||/ Name ii alsa-base ii apt
+++-=============== ii alsa-utils ii apt-clone
ii accountsservice ii anacron ii apt-transport-https
ii acl ii apache2 ii apt-utils
ii acpi-support 　ii apache2-bin ii apt-xapian-index
ii acpid ii apache2-data ii aptdaemon
ii add-apt-key ii apache2-utils ii aptdaemon-data
2017-01-06 13:19
Page 2
ii aptitude ii avahi-daemon ii bind9-host
ii aptitude-common ii avahi-utils ii binfmt-support
ii apturl ii aview ii binutils
ii apturl-common ii banshee ii bison
ii archdetect-deb ii baobab ii blt
ii aspell ii base-files ii blueberry
ii aspell-en ii base-passwd ii bluetooth
ii at-spi2-core ii bash ii bluez
ii attr ii bash-completion ii bluez-cups
ii avahi-autoipd ii bc ii bluez-obexd
…..

这里使用的标志如下：

–column定义输出中创建的列数。

-l 指定页长(默认页长是66行)。

10.tr命令

这个工具可转换或删除来自标准输入的字符，并将结果写入到标准输出。

使用tr的语法如下：

$ tr options set1 set2

不妨看一看下面的例子，在第一个命令中，set1([:upper:])表示输入字符的大小写(全是大写)。

然后，set2([:lower:])表示随后得到的字符会是小写。第二个例子中一样，换码顺序\n意味着打印输出到新行上：

linuxidc@linuxidc ~ $ echo “WWW.linuxidc.COM” | tr [:upper:] [:lower:]
www.linuxidc.com
linuxidc@linuxidc ~ $ echo “news.linuxidc.com” | tr [:lower:] [:upper:]
NEWS.linuxidc.COM

11.more命令

more命令是一个实用的文件阅读过滤器，基本上是用于查看证书而创建的。它显示了页面格式的文件内容，用户可以按回车键来查看更多信息。

你可以用它查看更广庞大的文件，就像这样：

linuxidc@linuxidc ~ $ dmesg | more
[ 0.000000] Initializing cgroup subsys cpuset
[ 0.000000] Initializing cgroup subsys cpu
[ 0.000000] Initializing cgroup subsys cpuacct
[ 0.000000] Linux version 4.4.0-21-generic (buildd@lgw01-21) (gcc version 5.3.1 20160413 (Ubuntu 5.3.1-14ubuntu2) ) #37-Ubuntu SMP Mon Apr 18 18:33:37 UTC 2016 (Ubuntu 4.4.0-21.37-generic
4.4.6)
[ 0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-21-generic root=UUID=bb29dda3-bdaa-4b39-86cf-4a6dc9634a1b ro quiet splash vt.handoff=7
[ 0.000000] KERNEL supported cpus:
[ 0.000000] Intel GenuineIntel
[ 0.000000] AMD AuthenticAMD
[ 0.000000] Centaur CentaurHauls
[ 0.000000] x86/fpu: xstate_offset[2]: 576, xstate_sizes[2]: 256
[ 0.000000] x86/fpu: Supporting XSAVE feature 0x01: ‘x87 floating point registers’
[ 0.000000] x86/fpu: Supporting XSAVE feature 0x02: ‘SSE registers’
[ 0.000000] x86/fpu: Supporting XSAVE feature 0x04: ‘AVX registers’
[ 0.000000] x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using ‘standard’ format.
[ 0.000000] x86/fpu: Using ‘eager’ FPU context switches.
[ 0.000000] e820: BIOS-provided physical RAM map:
[ 0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009d3ff] usable
[ 0.000000] BIOS-e820: [mem 0x000000000009d400-0x000000000009ffff] reserved
[ 0.000000] BIOS-e820: [mem 0x00000000000e0000-0x00000000000fffff] reserved
[ 0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000a56affff] usable
[ 0.000000] BIOS-e820: [mem 0x00000000a56b0000-0x00000000a5eaffff] reserved
[ 0.000000] BIOS-e820: [mem 0x00000000a5eb0000-0x00000000aaabefff] usable
–More–

12.less命令

less的用途与上面的more命令恰好相反，不过它提供了额外的功能，处理大文件时要快一点。

可以与more同样的方式来使用它：

linuxidc@linuxidc ~ $ dmesg | less
[ 0.000000] Initializing cgroup subsys cpuset
[ 0.000000] Initializing cgroup subsys cpu
[ 0.000000] Initializing cgroup subsys cpuacct
[ 0.000000] Linux version 4.4.0-21-generic (buildd@lgw01-21) (gcc version 5.3.1 20160413 (Ubuntu 5.3.1-14ubuntu2) ) #37-Ubuntu SMP Mon Apr 18 18:33:37 UTC 2016 (Ubuntu 4.4.0-21.37-generic
4.4.6)
[ 0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-21-generic root=UUID=bb29dda3-bdaa-4b39-86cf-4a6dc9634a1b ro quiet splash vt.handoff=7
[ 0.000000] KERNEL supported cpus:
[ 0.000000] Intel GenuineIntel
[ 0.000000] AMD AuthenticAMD
[ 0.000000] Centaur CentaurHauls
[ 0.000000] x86/fpu: xstate_offset[2]: 576, xstate_sizes[2]: 256
[ 0.000000] x86/fpu: Supporting XSAVE feature 0x01: ‘x87 floating point registers’
[ 0.000000] x86/fpu: Supporting XSAVE feature 0x02: ‘SSE registers’
[ 0.000000] x86/fpu: Supporting XSAVE feature 0x04: ‘AVX registers’
[ 0.000000] x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using ‘standard’ format.
[ 0.000000] x86/fpu: Using ‘eager’ FPU context switches.
[ 0.000000] e820: BIOS-provided physical RAM map:
[ 0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009d3ff] usable
[ 0.000000] BIOS-e820: [mem 0x000000000009d400-0x000000000009ffff] reserved
[ 0.000000] BIOS-e820: [mem 0x00000000000e0000-0x00000000000fffff] reserved
[ 0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000a56affff] usable
[ 0.000000] BIOS-e820: [mem 0x00000000a56b0000-0x00000000a5eaffff] reserved
[ 0.000000] BIOS-e820: [mem 0x00000000a5eb0000-0x00000000aaabefff] usable

要是还有哪些在Linux下可充当文本过滤器的实用命令行工具是本文没有提及的，欢迎留言补充。

原文标题：12 Useful Commands For Filtering Text for Effective File Operations in Linux，作者：Aaron Kili

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-01/139510.htm

Linux下过滤文本、实现高效文件操作的12个实用命令

相关推荐

分类

听说打赏我的人，都进福布斯排行榜啦！

支付宝扫一扫打赏

微信扫一扫打赏

相关推荐

分类

听说打赏我的人，都进福布斯排行榜啦！

支付宝扫一扫打赏

微信扫一扫打赏

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱