我有一个包含以下行的文件(test.csv):
2016-08-23 00:00:00,270113184103681474
2016-08-23 00:00:00,270113184101689340
2016-08-23 00:00:00,270113184103681474
2016-08-23 00:00:00,270113184101689340
2016-08-23 01:00:00,270113184103681474
2016-08-23 01:00:00,270113184101689340
我想获取第一列中每一列的总行数和第二列的唯一出现次数。上述几行的期望输出是:
2016-08-23 00:00:00, 4, 2
2016-08-23 01:00:00, 2, 2
有一个简单的 grep/awk 解决方案吗?
答案1
天真的解决方案只是计算每次出现的次数并跟踪以查看我们以前是否见过它。
所以:
awk -F, '{ t[$1]++; seen[$0]++; if (seen[$0] == 1) { u[$1]++ } }
END { for (a in t) { print a "," t[a] "," u[a] } }'
第一行将跟踪该日期在 中出现的总次数t
。它将跟踪我们在 中看到每一行的次数seen
,如果这是我们第一次看到它,那么我们就知道它是唯一的并将其计入 中u
。
第二行将迭代结果并将其打印出来。
答案2
如果您可以求助于 GNUawk
awk -F, '{a[$1]++; b[$1][$2]};
END{for (k in a) printf "%s,%d,%d\n", k, a[k], length(b[k])}' test.csv