GNU Datamash 中的计数操作

2024-5-15 • tag-icon

我有一个巨大的文件，其结构类似于：

A B 1980
A C 1985
A B 1979
A D 1990
A C 1981

任务是计算前两列中元素的频率，并返回与每对关联的最小数量。为了更清楚，输出应该是：

A B 2 1979
A C 2 1981
A D 1 1990

我的一句台词是（在玩具数据上表现正确）：

datamash -t' ' -s -g 1,2 count 1 min 3 < test.tsv

问题: 我不太清楚count操作如何与group by语句结合使用。如果我正确理解语法，那么count 1应该只计算第一列中的元素。有人可以解释一下吗？

相关内容