在 AWK 中打印不重复的数组

Question 1

打印部分行的原因是，在代码中，您不是删除要从数组中删除的值，而是用空字符串替换它们的值。

这会导致检查$1 in id2id{ ... }评估为true空字符串值。

解决方案是将代码替换id2id[$1]=""为delete id2id[$1]，然后它应该按预期工作。

这是代码的稍微简化版本：

awk 'NR == FNR { a[$2] = $1; next }
     $1 in a { print a[$1], $2, $1; delete a[$1] }' file1.txt file2.txt

在一行中：

awk 'NR==FNR{a[$2]=$1;next} $1 in a{print a[$1],$2,$1; delete a[$1]}' file1.txt file2.txt

使用 awk 代替 join 的优点是简单且易于定制。

缺点是在合并之前将第一个文件存储在RAM中，因此不能有效地处理大文件。

Answer

打印部分行的原因是，在代码中，您不是删除要从数组中删除的值，而是用空字符串替换它们的值。

这会导致检查$1 in id2id{ ... }评估为true空字符串值。

解决方案是将代码替换id2id[$1]=""为delete id2id[$1]，然后它应该按预期工作。

这是代码的稍微简化版本：

awk 'NR == FNR { a[$2] = $1; next }
     $1 in a { print a[$1], $2, $1; delete a[$1] }' file1.txt file2.txt

在一行中：

awk 'NR==FNR{a[$2]=$1;next} $1 in a{print a[$1],$2,$1; delete a[$1]}' file1.txt file2.txt

使用 awk 代替 join 的优点是简单且易于定制。

缺点是在合并之前将第一个文件存储在RAM中，因此不能有效地处理大文件。

Question 2

根据您的需要使用join，使其尽可能简单；

join -1 2 -2 1 -o 2.2 1.1 2.1 <(sort -unk2,2 file1) <(sort -unk1,1 file2) 2>/dev/null

join在第一个文件的第二个字段上-1 2，以第二个文件的第一个字段-2 1作为键。

并-o输出这些字段：
第二个文件中的第二个字段2.2
第一个文件中的第一个字段1.1
和第二个文件中的第一个字段2.1

这将第二个字段上的第一个文件作为键进行数字排序sort -unk2,2 file1
，并将第一个字段上的第二个文件作为数字键进行排序，并从两个文件中sort -unk1,1 file2 删除重复项。-u

awk解决方案：

awk '!second_file{ Ids[$2]=$1; next }
     ($1 in Ids) { print $2, Ids[$1], $1 }' file1 second_file=1 <(sort -u file2)

Answer

根据您的需要使用join，使其尽可能简单；

join -1 2 -2 1 -o 2.2 1.1 2.1 <(sort -unk2,2 file1) <(sort -unk1,1 file2) 2>/dev/null

join在第一个文件的第二个字段上-1 2，以第二个文件的第一个字段-2 1作为键。

并-o输出这些字段：
第二个文件中的第二个字段2.2
第一个文件中的第一个字段1.1
和第二个文件中的第一个字段2.1

这将第二个字段上的第一个文件作为键进行数字排序sort -unk2,2 file1
，并将第一个字段上的第二个文件作为数字键进行排序，并从两个文件中sort -unk1,1 file2 删除重复项。-u

awk解决方案：

awk '!second_file{ Ids[$2]=$1; next }
     ($1 in Ids) { print $2, Ids[$1], $1 }' file1 second_file=1 <(sort -u file2)

相关内容