共计 819 个字符,预计需要花费 3 分钟才能阅读完成。
这里说的“瑞士军刀”是指那些简单的一句命令就能完成其它高级语言一大片代码才能完成的工作。
下面的这些内容是 Quora 网站上 Joshua Levy 网友的总结:
通过 sort/uniq 获取文件内容的交集、合集和不同之处:假设有 a、b 两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个 G 的文件。(Sort 对内存没有要求)可以试着比较一下,你可以看看如果用 JAVA 来处理磁盘上文件的合并,需要用多少行代码。
cat a b | sort | uniq > c # c 是 a 和 b 的合集
cat a b | sort | uniq -d > c # c 是 a 和 b 的交集
cat a b b | sort | uniq -u > c # c 是 a 和 b 的不同
汇总一个文本内容里第三列数字的和,(这个方法要比用 Python 来做快 3 倍并只需 1 / 3 的代码量):
awk‘{x += $3} END {print x}’myfile
如果你想查看一个目录树里的文件的体积和修改日期,用下面的方法,相当于你挨个目录做”ls -l”,而且输出的形式比你用”ls -lR”更可读:
find . -type f -ls
使用 xargs 命令。这个命令非常的强大。注意每行上你可以控制多少个东西的执行。如果你不确定它是正确的执行,先使用 xargs echo。同样,-I{} 也非常有用。例子:
find . -name \*.py | xargs grep some_function
cat hosts | xargs -I{} ssh root@{} hostname
假设你有一个文本文件,比如一个 web 服务器日志,在某些行上有一些值,比如 URL 中的 acct_id 参数。如果你想统计每个 acct_id 的所有请求记录:
cat access.log | egrep -o‘acct_id=[0-9]+’| cut -d= -f2 | sort | uniq -c | sort -rn
正文完
星哥玩云-微信公众号