基于几列比较 csv 中的 2 个文件，并使用 shell 将第一个文件中的一列替换为第二个文件中另一列的匹配值

Question

使用磨坊主( mlr) 对两个文件共有的命名字段执行关系 JOIN 操作：

$ mlr --csv join -j AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH -f file1.csv file2.csv
AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH,IIII
a,b,c,d,e,f,g,h,i
aa,bb,cc,dd,ee,ff,gg,hh,ii

AAAA然后，为了用的内容替换该列的内容，IIII我们可以将该IIII列移动到开头，同时删除该AAAA列（这是通过 Millercut操作完成的），然后重新标记IIII为AAAA（这是通过 Millerlabel操作完成的）：

mlr --csv \
    join -j AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH -f file1.csv then \
    cut -o -f IIII,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH then \
    label AAAA file2.csv

该cut操作可以分为两个单独的步骤；一个排除该AAAA字段，另一个对剩余字段重新排序，使其IIII成为第一个字段。这将使我们能够避免长长的字段列表：

mlr --csv \
    join -j AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH -f file1.csv then \
    cut -x -f AAAA then \
    reorder -f IIII then \
    label AAAA file2.csv

最终输出：

AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH
i,b,c,d,e,f,g,h
ii,bb,cc,dd,ee,ff,gg,hh

Answer 1

使用磨坊主( mlr) 对两个文件共有的命名字段执行关系 JOIN 操作：

$ mlr --csv join -j AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH -f file1.csv file2.csv
AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH,IIII
a,b,c,d,e,f,g,h,i
aa,bb,cc,dd,ee,ff,gg,hh,ii

AAAA然后，为了用的内容替换该列的内容，IIII我们可以将该IIII列移动到开头，同时删除该AAAA列（这是通过 Millercut操作完成的），然后重新标记IIII为AAAA（这是通过 Millerlabel操作完成的）：

mlr --csv \
    join -j AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH -f file1.csv then \
    cut -o -f IIII,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH then \
    label AAAA file2.csv

该cut操作可以分为两个单独的步骤；一个排除该AAAA字段，另一个对剩余字段重新排序，使其IIII成为第一个字段。这将使我们能够避免长长的字段列表：

mlr --csv \
    join -j AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH -f file1.csv then \
    cut -x -f AAAA then \
    reorder -f IIII then \
    label AAAA file2.csv

最终输出：

AAAA,BBBB,CCCC,DDDD,EEEE,FFFF,GGGG,HHHH
i,b,c,d,e,f,g,h
ii,bb,cc,dd,ee,ff,gg,hh

基于几列比较 csv 中的 2 个文件，并使用 shell 将第一个文件中的一列替换为第二个文件中另一列的匹配值

答案1

相关内容