awk 将 col1 中日期的年份和月份以及 col2 中组的总和分组

awk 将 col1 中日期的年份和月份以及 col2 中组的总和分组

有什么想法如何使用命令行脚本对下面的数据进行分组和求和吗?

2018-02-01  10
2018-02-03  12
2018-03-01   1
2018-03-01  12
2018-04-12   9 
2019-01-12 213

上述数据集的预期结果

2018-02  22
2018-03  13
2018-04   9
2019-01 213

答案1

尝试这个

$ awk '{a[substr($0,0,7)]+=$2}END{for(b in a){print b,a[b]}}' myfile
2018-02 22
2019-01 213
2018-03 13
2018-04 9
$

对于排序,添加sort

$ awk '{a[substr($0,0,7)]+=$2}END{for(b in a){print b,a[b]}}' myfile | sort
2018-02 22
2018-03 13
2018-04 9
2019-01 213
$

答案2

另一种awk方法:

$ awk -F'[- ]' '{a[$1"-"$2]+=$NF}END{for(i in a){print i,a[i]}}' file | sort
2018-02 22
2019-01 213
2018-03 13
2018-04 0

或者,Perl:

$ perl -lne '/(.*)-.+ (\d+)/; $k{$1}+=$2 }{ print "$_ $k{$_}" for sort keys(%k)' file 
2018-02 22
2018-03 13
2018-04 9
2019-01 213

答案3

这是另一种无需使用外部二进制文件即可对输出进行排序的方法,例如sort

awk '{arr[substr($0,0,7)]+=$2}END{a=asorti(arr,sort); for(i=1;i<=a;i++) print sort[i], arr[sort[i]]}' infile.

答案4

使用csvsqlcsvkit

csvsql -d' ' -H --tables file --query "
  select substr(a,1,7) as the_date,sum(b)
  from file
  group by the_date;
" <(tr -s ' ' < file)

输出:

the_date,sum(b)
2018-02,22
2018-03,13
2018-04,9
2019-01,213

相关内容