使用 awk/join 基于列连接条目

Question 1

按照你的方法，你必须使用join两次（或改变你的方法，通过一次join调用来完成它）：

打印公共线和不可配对的file1线join -t'|' -e0 -a1 -o 1.2,1.3,1.5,2.5 <(<file1 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1) <(<file2 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1)
打印不可配对的file2行join -t'|' -e0 -v2 -o 2.2,2.3,1.5,2.5 <(<file1 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1) <(<file2 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1)

您可以通过一次awk调用执行相同的操作，存储$4在由 eg 索引的两个数组中$1|$2，然后在END块中迭代每个数组索引，比较它们并相应地打印：

awk -F'|' 'NR==FNR{z[$1"|"$2]=$4;next}{x[$1"|"$2]=$4}
END{for (j in x){if (!(j in z)){print j, "0", x[j]}};
for (i in z){if (i in x){print i, z[i], x[i]} else {print i, z[i], "0"}}
}' OFS="|"  file1 file2

Answer

按照你的方法，你必须使用join两次（或改变你的方法，通过一次join调用来完成它）：

打印公共线和不可配对的file1线join -t'|' -e0 -a1 -o 1.2,1.3,1.5,2.5 <(<file1 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1) <(<file2 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1)
打印不可配对的file2行join -t'|' -e0 -v2 -o 2.2,2.3,1.5,2.5 <(<file1 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1) <(<file2 awk -F'|' '{print $1"-"$2"|"$0}' | sort -t'|' -k1,1)

您可以通过一次awk调用执行相同的操作，存储$4在由 eg 索引的两个数组中$1|$2，然后在END块中迭代每个数组索引，比较它们并相应地打印：

awk -F'|' 'NR==FNR{z[$1"|"$2]=$4;next}{x[$1"|"$2]=$4}
END{for (j in x){if (!(j in z)){print j, "0", x[j]}};
for (i in z){if (i in x){print i, z[i], x[i]} else {print i, z[i], "0"}}
}' OFS="|"  file1 file2

Question 2

以下将|两个文件中的第一个替换为@（使用文件中其他地方未出现的字符），执行join，然后将更改回@原始|。这样，我们就创建了一个新的|分隔连接字段，其中包含原始文件中的第 1 列和第 2 列。

join -t'|' -e0 -a1 -a2 -o0,1.3,2.3 \
    <( sed 's/|/@/' file1 | sort )  \
    <( sed 's/|/@/' file2 | sort ) |
tr '@' '|'

在输出字段规范 ( -o) 中，零表示连接字段，任一文件中的第 3 列实际上是原始数据的第 4 列。

对于给定的输入文件，这会生成

1111|AAA|50|10
1111|BBB|30|0
1111|CCC|0|20
2222|BBB|10|0
3333|AAA|0|40

Answer

以下将|两个文件中的第一个替换为@（使用文件中其他地方未出现的字符），执行join，然后将更改回@原始|。这样，我们就创建了一个新的|分隔连接字段，其中包含原始文件中的第 1 列和第 2 列。

join -t'|' -e0 -a1 -a2 -o0,1.3,2.3 \
    <( sed 's/|/@/' file1 | sort )  \
    <( sed 's/|/@/' file2 | sort ) |
tr '@' '|'

在输出字段规范 ( -o) 中，零表示连接字段，任一文件中的第 3 列实际上是原始数据的第 4 列。

对于给定的输入文件，这会生成

1111|AAA|50|10
1111|BBB|30|0
1111|CCC|0|20
2222|BBB|10|0
3333|AAA|0|40

Question 3

另一种awk方法：

awk -F'|' 'NR==FNR{f1[$1FS$2]=$NF;next} {f2[$1FS$2]=$NF} 
    END{for (x in f1){print x,f1[x],f2[x]?f2[x]:0; delete f2[x]};
        for (y in f2) print y, 0, f2[y]
}' file[12] OFS='|'

解释：

NR==FNR{f1[$1FS$2]=$NF;next}，这将仅针对 file1 运行，并且使用组合键将在名为(将替换为awk 的数组中$1FS$2存储最后一列值$NFf1FS|F产量S运算符）。
{f2[$1FS$2]=$NF}，与上面相同，但这只会针对 file2 运行
for (x in f1){print x,f1[x],f2[x]?f2[x]:0; delete f2[x]}，在数组中循环f1并打印 key ( x)，它在 file1 中的值f1[x]，如果 file2 中存在相同的 file1 key，则也打印它，否则打印0（使用三元条件f2[x]?f2[x]:0），之后我们还从 file2 中删除相同 key 的记录delete f2[x]。
for (y in f2) print y, 0, f2[y]，现在 arrayf2包含仅存在于 file2 中的记录，因此我们打印它们的键 ( y)，0因为它们不存在于 file1 中，并且它们的值存在于 file2 中f2[y]。

Answer

另一种awk方法：

awk -F'|' 'NR==FNR{f1[$1FS$2]=$NF;next} {f2[$1FS$2]=$NF} 
    END{for (x in f1){print x,f1[x],f2[x]?f2[x]:0; delete f2[x]};
        for (y in f2) print y, 0, f2[y]
}' file[12] OFS='|'

解释：

NR==FNR{f1[$1FS$2]=$NF;next}，这将仅针对 file1 运行，并且使用组合键将在名为(将替换为awk 的数组中$1FS$2存储最后一列值$NFf1FS|F产量S运算符）。
{f2[$1FS$2]=$NF}，与上面相同，但这只会针对 file2 运行
for (x in f1){print x,f1[x],f2[x]?f2[x]:0; delete f2[x]}，在数组中循环f1并打印 key ( x)，它在 file1 中的值f1[x]，如果 file2 中存在相同的 file1 key，则也打印它，否则打印0（使用三元条件f2[x]?f2[x]:0），之后我们还从 file2 中删除相同 key 的记录delete f2[x]。
for (y in f2) print y, 0, f2[y]，现在 arrayf2包含仅存在于 file2 中的记录，因此我们打印它们的键 ( y)，0因为它们不存在于 file1 中，并且它们的值存在于 file2 中f2[y]。

使用 awk/join 基于列连接条目

答案1

答案2

答案3

解释：

相关内容