我有多个文件,其内容类似于:
主文件1:
test01:6733:4370:5342
test02:7776:2018:1001
test03:9865:5632:1429
test04:8477:4757:1890
test05:8019:8860:5298
test06:5602:3100:6995
test07:1445:2850:2755
test08:10924:2562:4867
test09:2575:1884:1611
示例文件2:
test01:8777:1060:9236
test02:1322:1211:10837
test04:3737:10175:5219
test05:8467:8988:9739
test06:7452:3100:2709
test08:4707:9047:10578
test09:8669:2867:8233
test10:8615:10002:7056
示例文件3:
test01:10957:8172:2472
test02:1401:6160:5894
test03:7245:8934:5725
test04:8477:10106:10069
test05:10769:10381:1102
test06:3605:3713:7695
test08:10924:2562:10568
test09:2913:5628:1305
test10:5501:10293:2319
我想用另一个文件中的一行来更新主文件 1 中的每一行,该文件具有相同的第一列,并且在第三列中具有所有文件中最大的数字。
仅应考虑主文件中的第一列(应忽略存在于其他文件中但不存在于主文件中的 test##)。
当在其他文件中找到更多行时(第三列中的数字更大但数量相同),可以使用其中的任何(一个)来更新主文件。
这是我的不是最佳解决方案
$ awk -F: '{print $1,$3}' main|while read a b;do grep ^${a}: main file*|sort -t":" -rnk4|awk -F: -vb=$b '{if($4>b){print $0;next} else {print ($1=="main")? $0 : NULL}}'|head -1;done
file3:test01:10957:8172:2472
file3:test02:1401:6160:5894
file3:test03:7245:8934:5725
file2:test04:3737:10175:5219
file3:test05:10769:10381:1102
file3:test06:3605:3713:7695
main:test07:1445:2850:2755
file2:test08:4707:9047:10578
file3:test09:2913:5628:1305
如何立即在 awk 中处理所有此类文件,并在没有 while 循环和命令中的许多管道的情况下完成工作?
更新:@RomanPerekhrest,感谢您提供的出色代码,如何将 :updated 后缀添加到来自其他文件的所有行?我想要这样的东西:
test01:10957:8172:2472:updated
test02:1401:6160:5894:updated
test03:7245:8934:5725:updated
test04:3737:10175:5219:updated
test05:10769:10381:1102:updated
test06:3605:3713:7695:updated
test07:1445:2850:2755
test08:4707:9047:10578:updated
test09:2913:5628:1305:updated
更新:我有一个新的案例,这是我之前没有预测到的,即其他文件在 $3 中具有更大的值,但在 $2 列中也不是数字 - 在这种情况下,这样的行(尽管 $3 更大)应该被忽略,因为错误价值为 2 美元。
为了展示这种情况,使用上面的示例文件,在 file2 的“test09”行中,我将第二列替换为“xxxxx”,现在我有:
$ grep test09 *
file2:test09:xxxxx:2867:8233
file3:test09:2913:5628:1305
main:test09:2575:1884:1611
$ awk -F':' 'FILENAME != "main"{ if ($2~/^[0-9]+/&&(!($1 in a) || ($3 > a[$1]))) { a[$1]=$3; b[$1]=$0 } next }{ if (($1 in a) && (a[$1] > $3)){ print b[$1]":updated"; delete b[$1] } else print }' file* main
test01:10957:8172:2472:updated
test02:1401:6160:5894:updated
test03:7245:8934:5725:updated
test04:3737:10175:5219:updated
test05:10769:10381:1102:updated
test06:3605:3713:7695:updated
test07:1445:2850:2755
test08:4707:9047:10578:updated
test09:2913:5628:1305:updated <- this is now update from file3
接下来,我将 file3 中“test09”行的 $2 值也更改为非数字:
$ grep test09 *
file2:test09:xxxxx:2867:8233
file3:test09:zzzzz:5628:1305
main:test09:2575:1884:1611
$ awk -F':' 'FILENAME != "main"{ if ($2~/^[0-9]+/&&(!($1 in a) || ($3 > a[$1]))) { a[$1]=$3; b[$1]=$0 } next }{ if (($1 in a) && (a[$1] > $3)){ print b[$1]":updated"; delete b[$1] } else print }' file* main
test01:10957:8172:2472:updated
test02:1401:6160:5894:updated
test03:7245:8934:5725:updated
test04:3737:10175:5219:updated
test05:10769:10381:1102:updated
test06:3605:3713:7695:updated
test07:1445:2850:2755
test08:4707:9047:10578:updated
test09:2575:1884:1611 <-- this is now from the main file
虽然看起来工作正常,但能否请解释一下代码中的第二个“if”?难道也需要条件吗$2~/^[0-9]+/
?
{ if (($1 in a) && (a[$1] > $3))
答案1
优化awk
解决方案是关于27快几倍:
awk -F':' 'FILENAME != "main"{
if (!($1 in a) || $3 > a[$1]) { a[$1] = $3; b[$1] = $0 } next;
}
{
if (($1 in a) && (a[$1] > $3)){ print b[$1]; delete b[$1] }
else print;
}' file* main
输出:
test01:10957:8172:2472
test02:1401:6160:5894
test03:7245:8934:5725
test04:3737:10175:5219
test05:10769:10381:1102
test06:3605:3713:7695
test07:1445:2850:2755
test08:4707:9047:10578
test09:2913:5628:1305
执行时间比较:
$ time(awk -F: '{print $1,$3}' main |while read a b; do grep ^${a}: main file* | sort -t":" -rnk4 | awk -F':' -vb=$b '{if($4>b){print $0;next} else {print ($1=="main")? $0 : NULL}}' | head -1; done > /dev/null)
real 0m0.111s
user 0m0.004s
sys 0m0.012s
$ time(awk -F':' 'FILENAME != "main"{ if (!($1 in a) || $3 > a[$1]) { a[$1]=$3; b[$1]=$0 } next }{ if (($1 in a) && (a[$1] > $3)){ print b[$1]; delete b[$1] } else print }' file* main > /dev/null)
real 0m0.004s
user 0m0.000s
sys 0m0.000s