第一个差异之后差异停止

Question 1

cmp在第一个差异处停止：

% cat foo
foo
bar
baz
---
foo
bar
baz
% cat bar
foo
bar
baz
---
foo+
bar+
baz+
% cmp foo bar
foo bar differ: byte 20, line 5
%

您可以用脚本来打印不同的行：

#! /bin/bash
line=$(cmp "$1" "$2" | awk '{print $NF}')
if [ ! -z $line ]; then
    awk -v file="$1" -v line=$line 'NR==line{print "In file "file": "$0; exit}' "$1"
    awk -v file="$2" -v line=$line 'NR==line{print "In file "file": "$0; exit}' "$2"
 fi

% ./script.sh foo bar
In file foo: foo
In file bar: foo+

部分成本现在转移到 AWK 命令，但它应该比完全检查两个文件要快得多。

Answer

cmp在第一个差异处停止：

% cat foo
foo
bar
baz
---
foo
bar
baz
% cat bar
foo
bar
baz
---
foo+
bar+
baz+
% cmp foo bar
foo bar differ: byte 20, line 5
%

您可以用脚本来打印不同的行：

#! /bin/bash
line=$(cmp "$1" "$2" | awk '{print $NF}')
if [ ! -z $line ]; then
    awk -v file="$1" -v line=$line 'NR==line{print "In file "file": "$0; exit}' "$1"
    awk -v file="$2" -v line=$line 'NR==line{print "In file "file": "$0; exit}' "$2"
 fi

% ./script.sh foo bar
In file foo: foo
In file bar: foo+

部分成本现在转移到 AWK 命令，但它应该比完全检查两个文件要快得多。

Question 2

我用一些简单的案例对此进行了测试，但将现场测试留给你：

$ cat f1
l1
l21 l22       l23  l24


l3
l4x
l5


$ cat f2
l1
l21 l22       l23

l3
l4y
l5



$ cat awkdiff.awk


BEGIN {
   maxdiff = 5
   ignoreemptylines = 1
   whitespaceaware = 1

   if (whitespaceaware) {
      emptypattern = "^[[:space:]]*$"
   } else {
      emptypattern = "^$"
      FS=""
   }

   f1 = ARGV[1]
   f2 = ARGV[2]

   rc1=rc2=1
   while( (rc1>0 && rc2>0 && diff<maxdiff)  ) {
      rc1 = getline l1 < f1 ; ++nr1
      rc2 = getline l2 < f2 ; ++nr2

      if (ignoreemptylines) {
         while ( l1 ~ emptypattern   &&  rc1>0) {
            rc1 = getline l1 < f1 ; ++nr1
         }

         while ( l2 ~ emptypattern  &&  rc2>0) {
            rc2 = getline l2 < f2 ; ++nr2
         }
      }


      if ( rc1>0 && rc2>0) {
         nf1 = split( l1, a1)
         nf2 = split( l2, a2)

         if ( nf1 <= nf2) {
            nfmin = nf1
         } else {
            nfmin = nf2
         }

         founddiff = 0
         for (i=1; i<=nfmin; ++i) {
            if ( a2[i]"" != a1[i]"") {
               printf "%d:%d:{%s} != %d:%d:{%s}\n", \
                  nr1, nf1, a1[i], nr2, nf2, a2[i]
               founddiff=1
               ++diff
               break
            }
         }

         if ( !founddiff  &&  nf1 != nf2) {
            if ( nf1 > nf2)
               printf "%d:%d:{%s} != %d:EOL\n", nr1, nfmin+1, a1[nfmin+1], nr2
            else
               printf "%d:EOL != %d:%d:{%s}\n", nr1, nr2, nfmin+1, a2[nfmin+1]
            ++diff
         }
      } else {
         if ( rc1 == -1 && rc2 == -1) {
            print "IO error"
         } else if ( rc1 == 1 && rc2 == 0) {
            print "%d:%s != EOL\n", nr1, l1
         } else if ( rc1 == 0 && rc2 == 1) {
            printf "EOL != %d:%s\n", nr2, l2
         }
      }
   }
}


$ awk -f awkdiff.awk  /tmp/f1 /tmp/f2
2:4:{l24} != 2:EOL
6:1:{l4x} != 5:1:{l4y}

maxdiff = N：设置比较应停止的最大差异数

ignoreemptylines = 1|0：指定比较时是否应忽略空行

whitespaceaware = 1|0：指定是否应按字面进行比较（假设连续空格相等）或按行进行比较

Answer

我用一些简单的案例对此进行了测试，但将现场测试留给你：

$ cat f1
l1
l21 l22       l23  l24


l3
l4x
l5


$ cat f2
l1
l21 l22       l23

l3
l4y
l5



$ cat awkdiff.awk


BEGIN {
   maxdiff = 5
   ignoreemptylines = 1
   whitespaceaware = 1

   if (whitespaceaware) {
      emptypattern = "^[[:space:]]*$"
   } else {
      emptypattern = "^$"
      FS=""
   }

   f1 = ARGV[1]
   f2 = ARGV[2]

   rc1=rc2=1
   while( (rc1>0 && rc2>0 && diff<maxdiff)  ) {
      rc1 = getline l1 < f1 ; ++nr1
      rc2 = getline l2 < f2 ; ++nr2

      if (ignoreemptylines) {
         while ( l1 ~ emptypattern   &&  rc1>0) {
            rc1 = getline l1 < f1 ; ++nr1
         }

         while ( l2 ~ emptypattern  &&  rc2>0) {
            rc2 = getline l2 < f2 ; ++nr2
         }
      }


      if ( rc1>0 && rc2>0) {
         nf1 = split( l1, a1)
         nf2 = split( l2, a2)

         if ( nf1 <= nf2) {
            nfmin = nf1
         } else {
            nfmin = nf2
         }

         founddiff = 0
         for (i=1; i<=nfmin; ++i) {
            if ( a2[i]"" != a1[i]"") {
               printf "%d:%d:{%s} != %d:%d:{%s}\n", \
                  nr1, nf1, a1[i], nr2, nf2, a2[i]
               founddiff=1
               ++diff
               break
            }
         }

         if ( !founddiff  &&  nf1 != nf2) {
            if ( nf1 > nf2)
               printf "%d:%d:{%s} != %d:EOL\n", nr1, nfmin+1, a1[nfmin+1], nr2
            else
               printf "%d:EOL != %d:%d:{%s}\n", nr1, nr2, nfmin+1, a2[nfmin+1]
            ++diff
         }
      } else {
         if ( rc1 == -1 && rc2 == -1) {
            print "IO error"
         } else if ( rc1 == 1 && rc2 == 0) {
            print "%d:%s != EOL\n", nr1, l1
         } else if ( rc1 == 0 && rc2 == 1) {
            printf "EOL != %d:%s\n", nr2, l2
         }
      }
   }
}


$ awk -f awkdiff.awk  /tmp/f1 /tmp/f2
2:4:{l24} != 2:EOL
6:1:{l4x} != 5:1:{l4y}

maxdiff = N：设置比较应停止的最大差异数

ignoreemptylines = 1|0：指定比较时是否应忽略空行

whitespaceaware = 1|0：指定是否应按字面进行比较（假设连续空格相等）或按行进行比较

第一个差异之后差异停止

答案1

答案2

相关内容