计算 csv 文件所有列中的唯一值

计算 csv 文件所有列中的唯一值

我有一个 CSV 文件 a.csv,其中有 15000 行和 16 列。它在不同的列中有数字、句子、日期。

它看起来像这样:

A, B, C, D
a  b  c  d
e  f  g  h
e  i  j  k
a  m  n  k

如何分别计算每列中的唯一值并立即打印它们?

我想要一个如下所示的输出:

A 2
B 4
C 4
D 3

非常感谢任何建议或帮助。提前致谢。

答案1

使用 xsv (https://github.com/BurntSushi/xsv) 从...开始

A,B,C,D
a,b,c,d
e,f,g,h
e,i,j,k
a,m,n,k

和跑步

xsv stats input.csv --everything | xsv select field,cardinality >output.txt

你将会拥有

field,cardinality
A,2
B,4
C,4
D,3

相关内容