通过 AWK 或脚本进行文本处理来管理大文件

Question 1

根据修改后的问题和评论中的要求，此答案是尝试创建一个更快的脚本，该脚本产生与问题中的脚本相同的结果，而不修复其他问题。

建议的脚本将只处理输入文件两次，与错误消息的数量无关。

但我不确定这是修改以获得问题中显示的输出的更好基础。（有一条规则“首先要让它工作，而不是让它快速，而不是相反。”）

grep -B1 'Error' file.txt |sed '/^-/d' | sed '/^$/d' | grep -v Error| awk '{printf "/%s/ && /%s/ && /%s/\n", $6, $8, $10}' > filter.awk
awk -f filter.awk file.txt

或者不将awk脚本写入文件

awk -f <(grep -B1 'Error' file.txt |sed '/^-/d' | sed '/^$/d' | grep -v Error| awk '{printf "/%s/ && /%s/ && /%s/\n", $6, $8, $10}') file.txt

或不使用grep（并且没有任何等效的命令，sed这对于示例输入来说似乎是不必要的）

awk -f <(awk '/Error/ && prev {$0=prev;printf "/%s/ && /%s/ && /%s/\n", $6, $8, $10;next} {prev=$0}' file.txt) file.txt

Answer

根据修改后的问题和评论中的要求，此答案是尝试创建一个更快的脚本，该脚本产生与问题中的脚本相同的结果，而不修复其他问题。

建议的脚本将只处理输入文件两次，与错误消息的数量无关。

但我不确定这是修改以获得问题中显示的输出的更好基础。（有一条规则“首先要让它工作，而不是让它快速，而不是相反。”）

grep -B1 'Error' file.txt |sed '/^-/d' | sed '/^$/d' | grep -v Error| awk '{printf "/%s/ && /%s/ && /%s/\n", $6, $8, $10}' > filter.awk
awk -f filter.awk file.txt

或者不将awk脚本写入文件

awk -f <(grep -B1 'Error' file.txt |sed '/^-/d' | sed '/^$/d' | grep -v Error| awk '{printf "/%s/ && /%s/ && /%s/\n", $6, $8, $10}') file.txt

或不使用grep（并且没有任何等效的命令，sed这对于示例输入来说似乎是不必要的）

awk -f <(awk '/Error/ && prev {$0=prev;printf "/%s/ && /%s/ && /%s/\n", $6, $8, $10;next} {prev=$0}' file.txt) file.txt

Question 2

在问题中的示例输入更改后，此处的解决方案不再有效。需要澄清。

输入格式的规范不明确。

根据问题的原始示例输入，此脚本将打印预期的输出。

awk '/Number_[0-9]* : Message .* -Code [0-9]* ./ { if($2 != first) i=0; line[i++]=$0; first=$2;}
/Number_[0-9]* : Message from .* -Code [0-9]*$/ { second=$2; sub(second,first); line[i++]=$0}
/Number_[0-9]* : Error Message/ && (second==$2) { print line[0]; print line[1]; print line[2];}' input

-Code该脚本通过在第一种情况下后面的数字和第二种情况下行尾的数字后面期望有一个空格和任何字符来区分第一种情况和第二种情况。

原始输入是

...
useless_words Number_98 : useless message
useless_words Number_99 : useless message
useless_words Number_100 : Message xx Dublin xx Paris useless_words -Code 452 useless_words
useless_words Number_100 : Rename message (old 452 ; new 557)
useless_words Number_100 : Message xx Dublin xx Paris useless_words -Code 557 useless_words
useless_words Number_101 : useless message
useless_words Number_102 : useless message
useless_words Number_103 : Message from Dublin to Paris -Code 557
useless_words Number_103 : Error Message
...
useless_words Number_110 : Message xx Alger xx Barcelona useless_words -Code 345 useless_words
useless_words Number_110 : Rename message (old 345 ; new 846)
useless_words Number_110 : Message xx Alger xx Barcelona useless_words -Code 846 useless_words
useless_words Number_111 : useless message
...
useless_words Number_115 : Message from Alger to Barcelona -Code 846
useless_words Number_115 : Error Message
...

输出

useless_words Number_100 : Message xx Dublin xx Paris useless_words -Code 452 useless_words
useless_words Number_100 : Message xx Dublin xx Paris useless_words -Code 557 useless_words
useless_words Number_100 : Message from Dublin to Paris -Code 557
useless_words Number_110 : Message xx Alger xx Barcelona useless_words -Code 345 useless_words
useless_words Number_110 : Message xx Alger xx Barcelona useless_words -Code 846 useless_words
useless_words Number_110 : Message from Alger to Barcelona -Code 846

问题修改后编辑

该脚本不再适用于修改后的输入，因为“无用行”现在具有与可能有趣的行相同的格式。

要修复此脚本，要么需要一个标准来区分可能有趣的行和无用的行，要么脚本必须存储多于一组的行，直到Error Message找到带有的行。

我要求澄清这个问题。

Answer