包含文件名和哈希值的文本文件 - 提取具有重复哈希值的行

Question

你可以做得比这个两遍awk解决方案更糟糕

awk 'NR == FNR{if ($2 in a) b[$2]++;a[$2]++; next}; $2 in b' file file

在第一遍中，使用数组b来跟踪多次遇到的哈希值。在第二遍中，如果哈希值存在于其中，则打印一条记录b

交替

sort -k2,2 file | uniq -f 1 -D

这涉及按第二个字段对文件进行排序，并通过管道uniq打印所有重复记录（通过进行比较时跳过第一个字段-f 1）。考虑到输入文件的大小，这可能会占用大量资源

Answer 1

你可以做得比这个两遍awk解决方案更糟糕

awk 'NR == FNR{if ($2 in a) b[$2]++;a[$2]++; next}; $2 in b' file file

在第一遍中，使用数组b来跟踪多次遇到的哈希值。在第二遍中，如果哈希值存在于其中，则打印一条记录b

交替

sort -k2,2 file | uniq -f 1 -D

这涉及按第二个字段对文件进行排序，并通过管道uniq打印所有重复记录（通过进行比较时跳过第一个字段-f 1）。考虑到输入文件的大小，这可能会占用大量资源

相关内容