2 个 csv 文件按列进行数据比较，从第 3 个文件输入

Question

#!/bin/bash

join -t, file_1 file_2 | join -t, - file_3 |
awk -F, '
NR == 1 {
    fields_num = (NF + 1) / 2

    for(i = 1; i <= fields_num; i++)
        field_names[i] = $i
}
NR != 1 {
    item = $1 "\t"

    for(i = 2; i <= fields_num; i++) {
        cmp_num = i + fields_num - 1

        if($i != $cmp_num) {
            printf "%s%s=%s\t%s=%s\n",
                    item,
                    field_names[i], $i,
                    field_names[i], $cmp_num

            item = "\t"
        }

    }
}'

做了一些假设：

用于比较的列始终位于第一个。
所有文件均按第一列（A字段）排序。
仅比较两个文件 (file_1和)中出现的那些项目。file_2因此，如果file_1拥有该 item 2，但file_2没有，则该行将从比较中排除。

输入

tail -n +1 -- file_*

==> file_1 <==
A,B,C,D,E,F,G
1,2,3,4,5,5,7
7,6,5,2,3,2,1

==> file_2 <==
A,B,C,D,E,F,G
1,2,3,1,4,6,7
7,6,6,4,3,2,1

==> file_3 <==
A
1
2
7

输出

1   D=4 D=1
    E=5 E=4
    F=5 F=6
7   C=5 C=6
    D=2 D=4

Answer 1

#!/bin/bash

join -t, file_1 file_2 | join -t, - file_3 |
awk -F, '
NR == 1 {
    fields_num = (NF + 1) / 2

    for(i = 1; i <= fields_num; i++)
        field_names[i] = $i
}
NR != 1 {
    item = $1 "\t"

    for(i = 2; i <= fields_num; i++) {
        cmp_num = i + fields_num - 1

        if($i != $cmp_num) {
            printf "%s%s=%s\t%s=%s\n",
                    item,
                    field_names[i], $i,
                    field_names[i], $cmp_num

            item = "\t"
        }

    }
}'

做了一些假设：

用于比较的列始终位于第一个。
所有文件均按第一列（A字段）排序。
仅比较两个文件 (file_1和)中出现的那些项目。file_2因此，如果file_1拥有该 item 2，但file_2没有，则该行将从比较中排除。

输入

tail -n +1 -- file_*

==> file_1 <==
A,B,C,D,E,F,G
1,2,3,4,5,5,7
7,6,5,2,3,2,1

==> file_2 <==
A,B,C,D,E,F,G
1,2,3,1,4,6,7
7,6,6,4,3,2,1

==> file_3 <==
A
1
2
7

输出

1   D=4 D=1
    E=5 E=4
    F=5 F=6
7   C=5 C=6
    D=2 D=4

2 个 csv 文件按列进行数据比较，从第 3 个文件输入

答案1

相关内容