GNU Datamash 中的计数操作

GNU Datamash 中的计数操作

我有一个巨大的文件,其结构类似于:

A B 1980
A C 1985
A B 1979
A D 1990
A C 1981

任务是计算前两列中元素的频率,并返回与每对关联的最小数量。为了更清楚,输出应该是:

A B 2 1979
A C 2 1981
A D 1 1990

我的一句台词是(在玩具数据上表现正确):

datamash -t' ' -s -g 1,2 count 1 min 3 < test.tsv

问题: 我不太清楚count操作如何与group by语句结合使用。如果我正确理解语法,那么count 1应该只计算第一列中的元素。有人可以解释一下吗?

相关内容