在我之前的标签中,我将使用 awk 通用代码保留 csv 列。答案已给出这里作者:@steeldriver。
接下来,我想转置 csv 文件中的一些列以获取新列。
数据的描述是:
在输入中,第一行包含国家/地区(多个字段为空),第二行包含要处理的标题。
转置列根据国家/地区从最后一个空列开始。并不是说每个国家的列数有所不同。可以有 2 或 20 个国家/地区列。
例子:
- 输入:
file.csv
,,,fr,ch num,nom,date reg,match flag_fr,match flag_ch 0001,AA,2020-05-15,reg1_fr,reg2_ch 0002,AAA,2020-05-20,,reg3_ch
- 输出:
file1.csv
num,nom,date reg,match flag,country 0001,AA ,2020-05-15,reg1_fr,fr 0002,AAA,2020-05-20, _fr,fr 0001,AA ,2020-05-15,reg2_ch,ch 0002,AAA,2020-05-20,reg3_ch,ch
我用了以下代码,结果是正确的,但它迫使我手动声明所有不同的字段。例子:
awk -F, '
BEGIN{OFS=FS}
NR==2{n = split($0,a); print "num,nom,date reg,match country,flag"; next}
{for(i=4;i<=NF;i++) if (a[i] !=""){ print $1,$2,$3,a[i],$i} }
' < file.csv>file1.csv
结果file1.csv
num,nom,date reg,match country,flag
0001,AA,2020-05-15,match flag_fr,reg1_fr
0001,AA,2020-05-15,match flag_ch,reg2_ch
0002,AAA,2020-05-20,match flag_fr,
0002,AAA,2020-05-20,match flag_ch,reg3_ch
如果可能的话,我该如何做到这一点,使用通用awk
代码?
答案1
$ cat tst.awk
BEGIN { FS=OFS="," }
NR==1 {
for (numHdrs=1; numHdrs<=NF; numHdrs++) {
if ( $numHdrs != "" ) {
break
}
}
numHdrs--
next
}
{
hdr = ""
for (i=1; i<=numHdrs; i++) {
hdr = hdr $i OFS
}
}
NR == 2 {
for (i=numHdrs+1; i<=NF; i++) {
country[i] = $i
}
print hdr "match flag", "country"
next
}
{
for (i=numHdrs+1; i<=NF; i++) {
print hdr country[i], $i
}
}
。
$ awk -f tst.awk file.csv
num,nom,date reg,match flag,country
0001,AA,2020-05-15,match flag_fr,reg1_fr
0001,AA,2020-05-15,match flag_ch,reg2_ch
0002,AAA,2020-05-20,match flag_fr,
0002,AAA,2020-05-20,match flag_ch,reg3_ch