我有一个巨大的文件,其结构类似于:
A B 1980
A C 1985
A B 1979
A D 1990
A C 1981
任务是计算前两列中元素的频率,并返回与每对关联的最小数量。为了更清楚,输出应该是:
A B 2 1979
A C 2 1981
A D 1 1990
我的一句台词是(在玩具数据上表现正确):
datamash -t' ' -s -g 1,2 count 1 min 3 < test.tsv
问题: 我不太清楚count
操作如何与group by
语句结合使用。如果我正确理解语法,那么count 1
应该只计算第一列中的元素。有人可以解释一下吗?