按重复项对列进行排序并保留第一个出现的项

Question

正如埃德在他的书中所说评论，您的sort命令是对第三个字段进行排序，而实际上您只有两个字段（这:是字段分隔符）。因此，要修复它，请将密钥替换为3。2

但是，当记录按其键值而不是按行/记录号排序时，源文件中的原始记录顺序会变得混乱：

$ sort -u -t':' -k2,2 test.txt 
1:A
2:B
6:C
5:a
4:b
$

这可能是不是你想要什么。不过，通过再次通过管道输出可以轻松解决此问题sort：

$ sort -u -t':' -k2,2 test.txt | sort 
1:A
2:B
4:b
5:a
6:C
$

笔记：正如您所说，您有一个大文件，为了加快速度，您可能需要考虑使用--parallel标志¹：

sort --parallel=<n> -u -t':' -k2,2 test.txt | sort --parallel=<n>

您何时<n>拥有可用的核心数。

扩展示例文件，如果原始数据位于名为的文件中test.txt，如下所示：

1:A
2:B
3:A
4:b
5:a
6:C

并且，再次将视为:字段分隔符，那么您可以使用awk²。

例如这一行：

awk 'BEGIN{FS=":"}{if (!seen[$2]++)print $0}' test.txt

给出以下结果：

$ awk 'BEGIN{FS=":"}{if (!seen[$2]++)print $0}' test.txt 
1:A
2:B
4:b
5:a
6:C
$

您可以通过查看逻辑来了解其工作原理，使用

$ awk 'BEGIN{FS=":"}{print !seen[$2]++}' test.txt 
1
1
0
1
1
1
$

将其放入 shell 脚本³而不是awk脚本中会得到：

#!/bin/sh

awk -F':' '
  (!seen[$2]++) {
    print $0
  }
' "$1"

参考:

Answer 1