交换显示公共字符串的两个连续行的位置

Question 1

awk 中的强力方法：始终保存一行，并在字段 1 中提升与其匹配的任何后续行。

我对一百万行进行了测试（使用一次交换），它在 5.5 秒内运行，因此您的运行时间应该只是一分钟多一点。它不需要您的参考文件。

该脚本，包括带有测试行的 HereDoc。

#! /bin/bash

awkPairs () {

    local Awk='
FNR == 1 { k = $2; x = $0; next; } 
$2 != k { print x; k = $2; x = $0; next; } 
{ print $0; }
END { print x; }
'
    awk -f <( printf '%s' "${Awk}" ) -
}

    [ x ] && time awkPairs <<'[][]'
WT 1 One x1
WT 2 Two x2
WT 3 Three_1 x3
WT 3 Three_2 y3
WT 4 Four x4 
WT 5 Five_1 x5
WT 5 Five_2 y5
[][]

（短期）测试运行。

$ ./awkPairs
WT 1 One x1
WT 2 Two x2
WT 3 Three_2 y3
WT 3 Three_1 x3
WT 4 Four x4
WT 5 Five_2 y5
WT 5 Five_1 x5

real    0m0.009s
user    0m0.004s
sys     0m0.006s

删除了所有测试材料的脚本。可以使用单个参数（输入文件的名称）或使用重定向或管道输入的标准输入来调用它。输出始终转到 stdout。

#! /bin/bash

awkPairs () {

    local Awk='
FNR == 1 { k = $2; x = $0; next; }
$2 != k { print x; k = $2; x = $0; next; }
{ print $0; }
END { print x; }
'
    awk -f <( printf '%s' "${Awk}" ) "${1:--}"
}

    awkPairs "${1}"

因此可以通过以下任何一种方式调用它：

./awkPairs myData.txt
./awkPairs < myData.txt
cat myData.txt | ./awkPairs

Answer

awk 中的强力方法：始终保存一行，并在字段 1 中提升与其匹配的任何后续行。

我对一百万行进行了测试（使用一次交换），它在 5.5 秒内运行，因此您的运行时间应该只是一分钟多一点。它不需要您的参考文件。

该脚本，包括带有测试行的 HereDoc。

#! /bin/bash

awkPairs () {

    local Awk='
FNR == 1 { k = $2; x = $0; next; } 
$2 != k { print x; k = $2; x = $0; next; } 
{ print $0; }
END { print x; }
'
    awk -f <( printf '%s' "${Awk}" ) -
}

    [ x ] && time awkPairs <<'[][]'
WT 1 One x1
WT 2 Two x2
WT 3 Three_1 x3
WT 3 Three_2 y3
WT 4 Four x4 
WT 5 Five_1 x5
WT 5 Five_2 y5
[][]

（短期）测试运行。

$ ./awkPairs
WT 1 One x1
WT 2 Two x2
WT 3 Three_2 y3
WT 3 Three_1 x3
WT 4 Four x4
WT 5 Five_2 y5
WT 5 Five_1 x5

real    0m0.009s
user    0m0.004s
sys     0m0.006s

删除了所有测试材料的脚本。可以使用单个参数（输入文件的名称）或使用重定向或管道输入的标准输入来调用它。输出始终转到 stdout。

#! /bin/bash

awkPairs () {

    local Awk='
FNR == 1 { k = $2; x = $0; next; }
$2 != k { print x; k = $2; x = $0; next; }
{ print $0; }
END { print x; }
'
    awk -f <( printf '%s' "${Awk}" ) "${1:--}"
}

    awkPairs "${1}"

因此可以通过以下任何一种方式调用它：

./awkPairs myData.txt
./awkPairs < myData.txt
cat myData.txt | ./awkPairs

Question 2

GNU sed 处于扩展正则表达式模式-E（这使得正则表达式的噪音更少）。我们在模式空间中保存两条线并比较两条线的第一个字段。如果它们匹配，我们将在模式空间中打印交换的行并读取下一行。

sed -Ee '
  $!N
  s/^(\S+\s+(\S+)\s.*)\n(\S+\s+\2\s.*)/\3\n\1/
  t;P;D
' file

注意：这假设“文件”中没有前导空格。

Answer

GNU sed 处于扩展正则表达式模式-E（这使得正则表达式的噪音更少）。我们在模式空间中保存两条线并比较两条线的第一个字段。如果它们匹配，我们将在模式空间中打印交换的行并读取下一行。

sed -Ee '
  $!N
  s/^(\S+\s+(\S+)\s.*)\n(\S+\s+\2\s.*)/\3\n\1/
  t;P;D
' file

注意：这假设“文件”中没有前导空格。

Question 3

假设只有对需要交换的行数（即不是具有相同第二个字段的三个或更多连续行），并且该文件至少包含两行：

function possibly_swap() {
        if (stringa == stringb) {
                # The two previous lines needs swapping.
                t = linea
                linea = lineb
                lineb = t
        }
}

FNR >= 3 {
        possibly_swap()

        # Output the 2nd previous line (possibly swapped now).
        print lineb
}

{
        # Push new data.

        stringb = stringa
        lineb = linea

        stringa = $2
        linea = $0
}

END {
        # We may need to output the last two
        # lines swapped...
        possibly_swap()

        print lineb
        print linea
}

该awk程序使用两组变量，stringa和stringb、linea和lineb。变量string包含字符串，即输入行中最近两行的第二个字段。变量line包含相应的满的线。

整个代码中使用的后缀a和b对应于前一行和之前的行（“前第二行”）。

您可以将上面的代码放入其自己的文件中（此处我使用script.awk）并在其他文件（此处file）上运行它，如下所示

awk -f script.awk file

与“one-liner”相同的代码：

awk 'FNR>=3{if(sa==sb){t=la;la=lb;lb=t}print lb}{sb=sa;lb=la;sa=$2;la=$0}END{if(sa==sb){print la;print lb}else{print lb;print la}}' file

Answer