文件转换

Question 1

单独使用awk：

$ awk -F, 'BEGIN{OFS=FS} {a[$1] = a[$1] == "" ? $2 : a[$1] FS $2} END {for(i in a) print i,a[i]}' file
A,val1,val2,val3
B,val1,val2,val3

请注意，输出顺序无法保证 - 使用 GNU awk 很容易修复，但使用其他实现则更困难。输入数据不需要排序。

否则，使用 GNU datamash

datamash -t, groupby 1 collapse 2 < file

（如果输入未排序，请添加-s）或与 Miller

mlr --nidx --fs ',' nest --implode --values --across-records --nested-fs ',' -f 2 file

或更紧凑的更新版本

mlr --nidx --fs ',' nest --ivar ',' -f 2 file

Answer

单独使用awk：

$ awk -F, 'BEGIN{OFS=FS} {a[$1] = a[$1] == "" ? $2 : a[$1] FS $2} END {for(i in a) print i,a[i]}' file
A,val1,val2,val3
B,val1,val2,val3

请注意，输出顺序无法保证 - 使用 GNU awk 很容易修复，但使用其他实现则更困难。输入数据不需要排序。

否则，使用 GNU datamash

datamash -t, groupby 1 collapse 2 < file

（如果输入未排序，请添加-s）或与 Miller

mlr --nidx --fs ',' nest --implode --values --across-records --nested-fs ',' -f 2 file

或更紧凑的更新版本

mlr --nidx --fs ',' nest --ivar ',' -f 2 file

Question 2

有多种方法可以使用 shell 脚本解决这个问题，但我更喜欢使用一个还不太标准的工具：磨坊主。您可以apt install miller在 Ubuntu/Debian 上安装它。我发现 Miller 的动词是比 bash 或 awk 更自然的思考此类问题的工具。

如果问题中指定的数据存储在INPUT_FILE：

A,val1
A,val2
A,val3
B,val1
B,val2
B,val3

然后是米勒的nest动词可用于将多个记录（行）打包为字段 2 中有多个值的单个记录，并将字段 2 扩展为多个字段：

mlr --ocsv --headerless-csv-output \
  nest --implode --values --across-records -f 2 then \
  nest --explode --values --across-fields -f 2 INPUT_FILE

这会产生您想要的输出：

A,val1,val2,val3
B,val1,val2,val3

Miller 可能有一种更简单的方法来做到这一点，但这是我找到的第一个解决方案。

Answer