使用选定的字符串逐行比较 bash 文件

Question 1

这将读取所有行a.txt并跟踪其第 2 列的所有值。然后读取b.txt并打印出第 2 列的任何重复值：

$ awk 'NR==FNR {seen[$2]=1; next} seen[$2]==1 {seen[$2]++; print $2}' a.txt b.txt
abcd
2dfg

该awk命令可分为两部分。第一部分是：

NR==FNR {seen[$2]=1; next}

awk首先测试处理的记录（行）总数是否NR与此文件中处理的记录数相同FNR。这仅适用于处理的第一个文件，a.txt在本例中为。因此，对于中的每一行，将键设置为第二列的值的a.txt关联数组设置为的值。这将用于指示中“看到”了列 2 的这个值。以下命令是，它指示跳过其余命令并获取下一个记录。seen$21a.txtnextawk

第二部分是：

seen[$2]==1 {seen[$2]++; print $2}

由于next上面第一部分中的命令，此部分仅由文件执行b.txt。此部分以测试开始：它检查此$2记录的列 2 值是否以前出现过。如果以前出现过一次，则执行括号中的命令。括号中的第一个命令seen[$2]++将的值递增，seen以便我们永远不会再次处理列 2 的这个值。（因此，列 2 的重复值将被忽略。）第二个命令只是打印以前在中出现过的列 2 的值a.txt。

如果我们可以相信第 2 列没有重复的值，那么可以使用更简单的脚本：

$ awk '{print $2}' a.txt b.txt | sort | uniq -d
2dfg
abcd

Answer

这将读取所有行a.txt并跟踪其第 2 列的所有值。然后读取b.txt并打印出第 2 列的任何重复值：

$ awk 'NR==FNR {seen[$2]=1; next} seen[$2]==1 {seen[$2]++; print $2}' a.txt b.txt
abcd
2dfg

该awk命令可分为两部分。第一部分是：

NR==FNR {seen[$2]=1; next}