使用 awk 比较 shell 脚本中两个制表符分隔的文件

Question

这里有个提示。输出：

paste 1.txt 2.txt | awk '
{ FS = "\t" }
NR == 1 { n = NF/2 } {
  for(i=1;i<=n;i++) print "\"" $i "\" " ($i == $(i+n) ? "==":"!=") " \"" $(i+n) "\""
  print "###############"
}'

比较并打印文件之间每条记录的每个字段，结尾如下：

"ID60" == "ID60"
"Steve" != "Mark"
"Goldberg" != "Waugh"
"" != "St. Petersburg"
"6666600000" != "7777700000"
###############
"" != "8888800000"
"ID70" != ""
"John" != ""
"Smith" != ""
"" == ""
###############

有两个错误：

如果一行只存在于第二个文件中，则会出现隐藏的差一错误。这是因为缺少一条记录一字段，在通过添加的制表符之前有一个空字符串paste。因此，在这种情况下，您实际上是按 5,1,2,3,4 的顺序比较字段。
两个文件中此行的字段 4 都是空的（尽管方式不同），因此我期望输出：

Line No. 7 COLUMN NO 1,2,3,5

为了获得您想要的准确输出，下面的粗略修复将报告如果一行仅存在于一个文件中，则所有字段均不匹配。这可以通过NF == n+1添加到来检测if，因为对于仅存在于一个文件中的行，应该只有n+1和2*n字段，无论该文件是哪个文件。

paste 1.txt 2.txt | awk '
{ FS = "\t" }
NR == 1 { n = NF/2 } {
  for(i=1;i<=n;i++) if(NF == n+1 || $i!=$(i+n)) {c = c s i; s = "," }
  if(c){print "Line No. " NR-1 " COLUMN NO " c; c = "" ; s = "" }
}'

这假设所有记录都包含正确数量的标签n-1。

Answer 1

这里有个提示。输出：

paste 1.txt 2.txt | awk '
{ FS = "\t" }
NR == 1 { n = NF/2 } {
  for(i=1;i<=n;i++) print "\"" $i "\" " ($i == $(i+n) ? "==":"!=") " \"" $(i+n) "\""
  print "###############"
}'

比较并打印文件之间每条记录的每个字段，结尾如下：

"ID60" == "ID60"
"Steve" != "Mark"
"Goldberg" != "Waugh"
"" != "St. Petersburg"
"6666600000" != "7777700000"
###############
"" != "8888800000"
"ID70" != ""
"John" != ""
"Smith" != ""
"" == ""
###############

有两个错误：

如果一行只存在于第二个文件中，则会出现隐藏的差一错误。这是因为缺少一条记录一字段，在通过添加的制表符之前有一个空字符串paste。因此，在这种情况下，您实际上是按 5,1,2,3,4 的顺序比较字段。
两个文件中此行的字段 4 都是空的（尽管方式不同），因此我期望输出：

Line No. 7 COLUMN NO 1,2,3,5

为了获得您想要的准确输出，下面的粗略修复将报告如果一行仅存在于一个文件中，则所有字段均不匹配。这可以通过NF == n+1添加到来检测if，因为对于仅存在于一个文件中的行，应该只有n+1和2*n字段，无论该文件是哪个文件。

paste 1.txt 2.txt | awk '
{ FS = "\t" }
NR == 1 { n = NF/2 } {
  for(i=1;i<=n;i++) if(NF == n+1 || $i!=$(i+n)) {c = c s i; s = "," }
  if(c){print "Line No. " NR-1 " COLUMN NO " c; c = "" ; s = "" }
}'

这假设所有记录都包含正确数量的标签n-1。

使用 awk 比较 shell 脚本中两个制表符分隔的文件

答案1

相关内容