将多个数字通过管道传送到 Sed 中

Question 1

很遗憾我们看不到您的原始数据。鉴于您在名为的文件中进行管道处理的结果file，您将获得正确的结果

$ sort -t ' ' -k2,2 -k4.4n file | sort -u -k2,2
2374 213 MID=212 GO=1
2394 233 MID=232 GO=1
2185 24 MID=23 GO=1
1893 48 MID=47 GO=1
2219 58 MID=57 GO=1

这些是数据中GO每个组具有最小值的行（其中第二个字段定义组）。

第一个sort对数据进行排序，使每组的GO值从小到大排序。那-k4.4n 应该其中有一个点，而不是逗号。它指定了实际的价值在第四个字段之后=作为辅助排序键。

第二个sort仅使用第二个字段中的组编号并进行唯一排序。这具有仅在输出中保留每个唯一组的第一行的效果。

使用后来添加到问题中的原始数据：

sed 's/\./;./' file |
sort -t ';' -k1,1 -k6.4,6n |
sort -u -t ';' -k1,1 |
sed 's/;\././' |
sort -k1,1n -k2,2n

前两个sort调用执行与本答案前面部分相同的操作。这里我们使用前两列（染色体和位置）作为“组键”。

第一个sed将第 3 列中的点替换为;.。这样做是为了让我们;在两个调用中正确地用作字段分隔符sort。第二次sed调用恢复原始点。

最终的sort数据从一开始就按染色体和位置排序。

这导致

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  i0      i1      i2      i3      i4      i5      i6      i7      i8      i9      i10     i11     i12     i13     i14
1       1       .       A       T       1000    PASS    MID=0;S=0.0324764;DOM=0.5;PO=1;GO=1;MT=0;AC=200;DP=1000 GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       2       .       A       T       1000    PASS    MID=1;S=0.0125739;DOM=0.5;PO=1;GO=1;MT=5;AC=200;DP=1000 GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       3       .       A       T       1000    PASS    MID=2;S=-0.0693919;DOM=0.5;PO=1;GO=1;MT=9;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       4       .       A       T       1000    PASS    MID=3;S=0.0611535;DOM=0.5;PO=1;GO=1;MT=12;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       5       .       A       T       1000    PASS    MID=4;S=-0.0791182;DOM=0.5;PO=1;GO=1;MT=16;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       6       .       A       T       1000    PASS    MID=5;S=0.0463103;DOM=0.5;PO=1;GO=1;MT=21;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       7       .       A       T       1000    PASS    MID=6;S=0.0509527;DOM=0.5;PO=1;GO=1;MT=25;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       8       .       A       T       1000    PASS    MID=7;S=-0.0134404;DOM=0.5;PO=1;GO=1;MT=28;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       9       .       A       T       1000    PASS    MID=8;S=-0.00478324;DOM=0.5;PO=1;GO=1;MT=32;AC=200;DP=1000      GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       10      .       A       T       1000    PASS    MID=9;S=0.03588;DOM=0.5;PO=1;GO=1;MT=36;AC=200;DP=1000  GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       11      .       A       T       1000    PASS    MID=10;S=-0.028843;DOM=0.5;PO=1;GO=1;MT=41;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       12      .       A       T       1000    PASS    MID=11;S=-0.0832497;DOM=0.5;PO=1;GO=1;MT=45;AC=200;DP=1000      GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       13      .       A       T       1000    PASS    MID=12;S=0.0389281;DOM=0.5;PO=1;GO=1;MT=48;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       14      .       A       T       1000    PASS    MID=13;S=0.0362106;DOM=0.5;PO=1;GO=1;MT=53;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       15      .       A       T       1000    PASS    MID=14;S=0.0375309;DOM=0.5;PO=1;GO=1;MT=57;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       16      .       A       T       1000    PASS    MID=15;S=0.0112808;DOM=0.5;PO=1;GO=1;MT=60;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       17      .       A       T       1000    PASS    MID=16;S=0.0243286;DOM=0.5;PO=1;GO=1;MT=65;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       18      .       A       T       1000    PASS    MID=17;S=0.0596463;DOM=0.5;PO=1;GO=1;MT=69;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       24      .       A       T       1000    PASS    MID=23;S=-0.0086571;DOM=0.5;PO=1;GO=1;MT=92;AC=199;DP=1000;MULTIALLELIC GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       58      .       A       T       1000    PASS    MID=57;S=-0.0926969;DOM=0.5;PO=1;GO=1;MT=229;AC=198;DP=1000;MULTIALLELIC        GT      1|1     0|1     1|1     1|1     0|1     1|1
1       213     .       A       T       1000    PASS    MID=212;S=-0.0925562;DOM=0.5;PO=1;GO=1;MT=848;AC=196;DP=1000;MULTIALLELIC       GT      1|1     1|1     1|1     1|1     1|1     1|1
1       233     .       A       T       1000    PASS    MID=232;S=-0.0868037;DOM=0.5;PO=1;GO=1;MT=929;AC=199;DP=1000;MULTIALLELIC       GT      1|1     1|1     1|1     1|1     1|1     1|1

提取行号您想要在管道中删除的内容通常是执行此类任务的错误方法。请注意，管道的每个部分与同一管道的所有其他部分同时运行。这意味着您无法在一个部分开始覆盖或修改文件，而同时又在另一部分中读取该文件。

另请注意，当通过管道的各个阶段提取数据时，您会丢失未传递的数据。这使得允许单个管道修改原始数据变得更加困难（因为它在通过管道的过程中丢失了）。

因此，解决方案不是提取或计算应该删除的内容，而是传递应该保留的数据位。

Answer

很遗憾我们看不到您的原始数据。鉴于您在名为的文件中进行管道处理的结果file，您将获得正确的结果

$ sort -t ' ' -k2,2 -k4.4n file | sort -u -k2,2
2374 213 MID=212 GO=1
2394 233 MID=232 GO=1
2185 24 MID=23 GO=1
1893 48 MID=47 GO=1
2219 58 MID=57 GO=1

这些是数据中GO每个组具有最小值的行（其中第二个字段定义组）。

第一个sort对数据进行排序，使每组的GO值从小到大排序。那-k4.4n 应该其中有一个点，而不是逗号。它指定了实际的价值在第四个字段之后=作为辅助排序键。

第二个sort仅使用第二个字段中的组编号并进行唯一排序。这具有仅在输出中保留每个唯一组的第一行的效果。

使用后来添加到问题中的原始数据：

sed 's/\./;./' file |
sort -t ';' -k1,1 -k6.4,6n |
sort -u -t ';' -k1,1 |
sed 's/;\././' |
sort -k1,1n -k2,2n

前两个sort调用执行与本答案前面部分相同的操作。这里我们使用前两列（染色体和位置）作为“组键”。

第一个sed将第 3 列中的点替换为;.。这样做是为了让我们;在两个调用中正确地用作字段分隔符sort。第二次sed调用恢复原始点。

最终的sort数据从一开始就按染色体和位置排序。

这导致

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  i0      i1      i2      i3      i4      i5      i6      i7      i8      i9      i10     i11     i12     i13     i14
1       1       .       A       T       1000    PASS    MID=0;S=0.0324764;DOM=0.5;PO=1;GO=1;MT=0;AC=200;DP=1000 GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       2       .       A       T       1000    PASS    MID=1;S=0.0125739;DOM=0.5;PO=1;GO=1;MT=5;AC=200;DP=1000 GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       3       .       A       T       1000    PASS    MID=2;S=-0.0693919;DOM=0.5;PO=1;GO=1;MT=9;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       4       .       A       T       1000    PASS    MID=3;S=0.0611535;DOM=0.5;PO=1;GO=1;MT=12;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       5       .       A       T       1000    PASS    MID=4;S=-0.0791182;DOM=0.5;PO=1;GO=1;MT=16;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       6       .       A       T       1000    PASS    MID=5;S=0.0463103;DOM=0.5;PO=1;GO=1;MT=21;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       7       .       A       T       1000    PASS    MID=6;S=0.0509527;DOM=0.5;PO=1;GO=1;MT=25;AC=200;DP=1000        GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       8       .       A       T       1000    PASS    MID=7;S=-0.0134404;DOM=0.5;PO=1;GO=1;MT=28;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       9       .       A       T       1000    PASS    MID=8;S=-0.00478324;DOM=0.5;PO=1;GO=1;MT=32;AC=200;DP=1000      GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       10      .       A       T       1000    PASS    MID=9;S=0.03588;DOM=0.5;PO=1;GO=1;MT=36;AC=200;DP=1000  GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       11      .       A       T       1000    PASS    MID=10;S=-0.028843;DOM=0.5;PO=1;GO=1;MT=41;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       12      .       A       T       1000    PASS    MID=11;S=-0.0832497;DOM=0.5;PO=1;GO=1;MT=45;AC=200;DP=1000      GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       13      .       A       T       1000    PASS    MID=12;S=0.0389281;DOM=0.5;PO=1;GO=1;MT=48;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       14      .       A       T       1000    PASS    MID=13;S=0.0362106;DOM=0.5;PO=1;GO=1;MT=53;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       15      .       A       T       1000    PASS    MID=14;S=0.0375309;DOM=0.5;PO=1;GO=1;MT=57;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       16      .       A       T       1000    PASS    MID=15;S=0.0112808;DOM=0.5;PO=1;GO=1;MT=60;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       17      .       A       T       1000    PASS    MID=16;S=0.0243286;DOM=0.5;PO=1;GO=1;MT=65;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       18      .       A       T       1000    PASS    MID=17;S=0.0596463;DOM=0.5;PO=1;GO=1;MT=69;AC=200;DP=1000       GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       24      .       A       T       1000    PASS    MID=23;S=-0.0086571;DOM=0.5;PO=1;GO=1;MT=92;AC=199;DP=1000;MULTIALLELIC GT      1|1     1|1     1|1     1|1     1|1     1|1     1|1
1       58      .       A       T       1000    PASS    MID=57;S=-0.0926969;DOM=0.5;PO=1;GO=1;MT=229;AC=198;DP=1000;MULTIALLELIC        GT      1|1     0|1     1|1     1|1     0|1     1|1
1       213     .       A       T       1000    PASS    MID=212;S=-0.0925562;DOM=0.5;PO=1;GO=1;MT=848;AC=196;DP=1000;MULTIALLELIC       GT      1|1     1|1     1|1     1|1     1|1     1|1
1       233     .       A       T       1000    PASS    MID=232;S=-0.0868037;DOM=0.5;PO=1;GO=1;MT=929;AC=199;DP=1000;MULTIALLELIC       GT      1|1     1|1     1|1     1|1     1|1     1|1

提取行号您想要在管道中删除的内容通常是执行此类任务的错误方法。请注意，管道的每个部分与同一管道的所有其他部分同时运行。这意味着您无法在一个部分开始覆盖或修改文件，而同时又在另一部分中读取该文件。

另请注意，当通过管道的各个阶段提取数据时，您会丢失未传递的数据。这使得允许单个管道修改原始数据变得更加困难（因为它在通过管道的过程中丢失了）。

因此，解决方案不是提取或计算应该删除的内容，而是传递应该保留的数据位。

Question 2

您没有显示您期望的输出，但如果我理解正确，您正在寻找类似的东西（file有您问题中的数据）：

$ sort -t= -k3 -rn file | awk '{a[$2]=$0}END{for(i in a){print a[i]}}'
2185 24 MID=23 GO=1
1893 48 MID=47 GO=1
2219 58 MID=57 GO=1
2374 213 MID=212 GO=1
2394 233 MID=232 GO=1

这个想法是首先根据的值对输入进行排序GO。-t=将sort的字段分隔符设置为，=这使得数字位于GO第三个字段之后。我们按相反的数字顺序对其进行排序，以便较大的数字排在前面。然后，awk会将每一行保存为数组中的一个值，a其键是第二个字段。由于文件是按GO值排序的，这意味着我们将始终保留每个的最大值$2。然后，在文件末尾我们打印数组。

或者，您可以直接从原始文件完成整个操作：

$ awk -F'[\t=;]' '/^[^#]/{
                    if(!a[$1$2] || a[$1$2]>$17){
                        line[$1$2]=$0; 
                        a[$1$2]=$17
                    }
                   } 
                   END{
                    for(i in a){
                        print line[i]
                    }
                   }' file.vcf 
1   1   .   A   T   1000    PASS    MID=0;S=0.0324764;DOM=0.5;PO=1;GO=1;MT=0;AC=200;DP=1000 GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   2   .   A   T   1000    PASS    MID=1;S=0.0125739;DOM=0.5;PO=1;GO=1;MT=5;AC=200;DP=1000 GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   3   .   A   T   1000    PASS    MID=2;S=-0.0693919;DOM=0.5;PO=1;GO=1;MT=9;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   4   .   A   T   1000    PASS    MID=3;S=0.0611535;DOM=0.5;PO=1;GO=1;MT=12;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   5   .   A   T   1000    PASS    MID=4;S=-0.0791182;DOM=0.5;PO=1;GO=1;MT=16;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   6   .   A   T   1000    PASS    MID=5;S=0.0463103;DOM=0.5;PO=1;GO=1;MT=21;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   7   .   A   T   1000    PASS    MID=6;S=0.0509527;DOM=0.5;PO=1;GO=1;MT=25;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   8   .   A   T   1000    PASS    MID=7;S=-0.0134404;DOM=0.5;PO=1;GO=1;MT=28;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   9   .   A   T   1000    PASS    MID=8;S=-0.00478324;DOM=0.5;PO=1;GO=1;MT=32;AC=200;DP=1000  GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   10  .   A   T   1000    PASS    MID=9;S=0.03588;DOM=0.5;PO=1;GO=1;MT=36;AC=200;DP=1000  GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   11  .   A   T   1000    PASS    MID=10;S=-0.028843;DOM=0.5;PO=1;GO=1;MT=41;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   12  .   A   T   1000    PASS    MID=11;S=-0.0832497;DOM=0.5;PO=1;GO=1;MT=45;AC=200;DP=1000  GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   13  .   A   T   1000    PASS    MID=12;S=0.0389281;DOM=0.5;PO=1;GO=1;MT=48;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   14  .   A   T   1000    PASS    MID=13;S=0.0362106;DOM=0.5;PO=1;GO=1;MT=53;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   15  .   A   T   1000    PASS    MID=14;S=0.0375309;DOM=0.5;PO=1;GO=1;MT=57;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   16  .   A   T   1000    PASS    MID=15;S=0.0112808;DOM=0.5;PO=1;GO=1;MT=60;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   17  .   A   T   1000    PASS    MID=16;S=0.0243286;DOM=0.5;PO=1;GO=1;MT=65;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   18  .   A   T   1000    PASS    MID=17;S=0.0596463;DOM=0.5;PO=1;GO=1;MT=69;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   24  .   A   T   1000    PASS    MID=23;S=-0.0086571;DOM=0.5;PO=1;GO=1;MT=92;AC=199;DP=1000;MULTIALLELIC GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   58  .   A   T   1000    PASS    MID=57;S=-0.0926969;DOM=0.5;PO=1;GO=1;MT=229;AC=198;DP=1000;MULTIALLELIC    GT  1|1 0|1 1|1 1|1 0|1 1|1
1   213 .   A   T   1000    PASS    MID=212;S=-0.0925562;DOM=0.5;PO=1;GO=1;MT=848;AC=196;DP=1000;MULTIALLELIC   GT  1|1 1|1 1|1 1|1 1|1 1|1
1   233 .   A   T   1000    PASS    MID=232;S=-0.0868037;DOM=0.5;PO=1;GO=1;MT=929;AC=199;DP=1000;MULTIALLELIC   GT  1|1 1|1 1|1 1|1 1|1 1|1

这里的技巧是-F'[\t=;]'将 awk 的输入字段分隔符设置为\t、=或中的任何一个;。这使得 GO 值字段为 17（假设您的所有行都具有相同的结构，如果没有，请询问生物信息学因为使用其他工具可以更好地处理）。其余的意思是：

/^[^#]/{ }：在不以开头的行上执行此操作#。
if(a[$1$2]<$17){：如果数组中存储的a第一个和第二个字段（染色体和位置）的值小于该行的第 17 个字段
line[$1$2]=$0;：将此行保存为数组中字段 1 和 2 的组合值line。
a[$1$2]=$17：将第17个字段保存为数组中第一个和第二个字段的组合值a。
END{for(i in a){print a[i]}}：与上面一样，打印行。

现在，这将要求您为第二个字段的每个唯一值存储一整行。如果您的文件非常大，这可能会成为问题。

避免此问题的一种诚然不优雅的方法是基本上执行您最初要求的操作并使用行号。就像是：

awk -F'[\t=;]' 'NR==FNR && /^[^#]/{
                    if(!a[$1$2] || a[$1$2]>$17){
                        want[$1$2]=NR; 
                        a[$1$2]=$17
                    }
                } 
                NR!=FNR && want[$1$2]==FNR' file.vcf file.vcf

Answer

您没有显示您期望的输出，但如果我理解正确，您正在寻找类似的东西（file有您问题中的数据）：

$ sort -t= -k3 -rn file | awk '{a[$2]=$0}END{for(i in a){print a[i]}}'
2185 24 MID=23 GO=1
1893 48 MID=47 GO=1
2219 58 MID=57 GO=1
2374 213 MID=212 GO=1
2394 233 MID=232 GO=1

这个想法是首先根据的值对输入进行排序GO。-t=将sort的字段分隔符设置为，=这使得数字位于GO第三个字段之后。我们按相反的数字顺序对其进行排序，以便较大的数字排在前面。然后，awk会将每一行保存为数组中的一个值，a其键是第二个字段。由于文件是按GO值排序的，这意味着我们将始终保留每个的最大值$2。然后，在文件末尾我们打印数组。

或者，您可以直接从原始文件完成整个操作：

$ awk -F'[\t=;]' '/^[^#]/{
                    if(!a[$1$2] || a[$1$2]>$17){
                        line[$1$2]=$0; 
                        a[$1$2]=$17
                    }
                   } 
                   END{
                    for(i in a){
                        print line[i]
                    }
                   }' file.vcf 
1   1   .   A   T   1000    PASS    MID=0;S=0.0324764;DOM=0.5;PO=1;GO=1;MT=0;AC=200;DP=1000 GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   2   .   A   T   1000    PASS    MID=1;S=0.0125739;DOM=0.5;PO=1;GO=1;MT=5;AC=200;DP=1000 GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   3   .   A   T   1000    PASS    MID=2;S=-0.0693919;DOM=0.5;PO=1;GO=1;MT=9;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   4   .   A   T   1000    PASS    MID=3;S=0.0611535;DOM=0.5;PO=1;GO=1;MT=12;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   5   .   A   T   1000    PASS    MID=4;S=-0.0791182;DOM=0.5;PO=1;GO=1;MT=16;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   6   .   A   T   1000    PASS    MID=5;S=0.0463103;DOM=0.5;PO=1;GO=1;MT=21;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   7   .   A   T   1000    PASS    MID=6;S=0.0509527;DOM=0.5;PO=1;GO=1;MT=25;AC=200;DP=1000    GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   8   .   A   T   1000    PASS    MID=7;S=-0.0134404;DOM=0.5;PO=1;GO=1;MT=28;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   9   .   A   T   1000    PASS    MID=8;S=-0.00478324;DOM=0.5;PO=1;GO=1;MT=32;AC=200;DP=1000  GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   10  .   A   T   1000    PASS    MID=9;S=0.03588;DOM=0.5;PO=1;GO=1;MT=36;AC=200;DP=1000  GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   11  .   A   T   1000    PASS    MID=10;S=-0.028843;DOM=0.5;PO=1;GO=1;MT=41;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   12  .   A   T   1000    PASS    MID=11;S=-0.0832497;DOM=0.5;PO=1;GO=1;MT=45;AC=200;DP=1000  GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   13  .   A   T   1000    PASS    MID=12;S=0.0389281;DOM=0.5;PO=1;GO=1;MT=48;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   14  .   A   T   1000    PASS    MID=13;S=0.0362106;DOM=0.5;PO=1;GO=1;MT=53;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   15  .   A   T   1000    PASS    MID=14;S=0.0375309;DOM=0.5;PO=1;GO=1;MT=57;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   16  .   A   T   1000    PASS    MID=15;S=0.0112808;DOM=0.5;PO=1;GO=1;MT=60;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   17  .   A   T   1000    PASS    MID=16;S=0.0243286;DOM=0.5;PO=1;GO=1;MT=65;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   18  .   A   T   1000    PASS    MID=17;S=0.0596463;DOM=0.5;PO=1;GO=1;MT=69;AC=200;DP=1000   GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   24  .   A   T   1000    PASS    MID=23;S=-0.0086571;DOM=0.5;PO=1;GO=1;MT=92;AC=199;DP=1000;MULTIALLELIC GT  1|1 1|1 1|1 1|1 1|1 1|1 1|1
1   58  .   A   T   1000    PASS    MID=57;S=-0.0926969;DOM=0.5;PO=1;GO=1;MT=229;AC=198;DP=1000;MULTIALLELIC    GT  1|1 0|1 1|1 1|1 0|1 1|1
1   213 .   A   T   1000    PASS    MID=212;S=-0.0925562;DOM=0.5;PO=1;GO=1;MT=848;AC=196;DP=1000;MULTIALLELIC   GT  1|1 1|1 1|1 1|1 1|1 1|1
1   233 .   A   T   1000    PASS    MID=232;S=-0.0868037;DOM=0.5;PO=1;GO=1;MT=929;AC=199;DP=1000;MULTIALLELIC   GT  1|1 1|1 1|1 1|1 1|1 1|1

这里的技巧是-F'[\t=;]'将 awk 的输入字段分隔符设置为\t、=或中的任何一个;。这使得 GO 值字段为 17（假设您的所有行都具有相同的结构，如果没有，请询问生物信息学因为使用其他工具可以更好地处理）。其余的意思是：

/^[^#]/{ }：在不以开头的行上执行此操作#。
if(a[$1$2]<$17){：如果数组中存储的a第一个和第二个字段（染色体和位置）的值小于该行的第 17 个字段
line[$1$2]=$0;：将此行保存为数组中字段 1 和 2 的组合值line。
a[$1$2]=$17：将第17个字段保存为数组中第一个和第二个字段的组合值a。
END{for(i in a){print a[i]}}：与上面一样，打印行。

现在，这将要求您为第二个字段的每个唯一值存储一整行。如果您的文件非常大，这可能会成为问题。

避免此问题的一种诚然不优雅的方法是基本上执行您最初要求的操作并使用行号。就像是：

awk -F'[\t=;]' 'NR==FNR && /^[^#]/{
                    if(!a[$1$2] || a[$1$2]>$17){
                        want[$1$2]=NR; 
                        a[$1$2]=$17
                    }
                } 
                NR!=FNR && want[$1$2]==FNR' file.vcf file.vcf

Question 3

您可以使用常规名称通过其标准输入将 sed 脚本通过管道传输-。处理掉您提供的样品并丢弃未使用的$9，

grep -n = full.txt \
| awk -F'[:;\t]' '{sub(/.*=/,"",$13); print $1,$3,$13 }' \
| sort -nk2,3 \
| awk 'last==$2{print $1"d"}last=$2' \
# | sed -i -f- full.txt

如果你使用的是 Mac，他们强制要求备份扩展，你必须说sed -i '' etc将其关闭。

我认为最好使用一个承诺很大的文件，以便在排序之前尽可能多地减少数据。

当我插入$1"p"for$1"d"并运行它|sed -nf- full.txt来打印它要删除的行时，我得到

$ grep -n = full.txt     | awk -F'[:;\t]' '{sub(/.*=/,"",$13); print $1,$3,$13 }'     | sort -nk2,3     | awk 'last==$2{print $1"p"}{last=$2}' | sed -nf- full.txt
1       213     .       A       T       1000    PASS    MID=477;S=0.0600971;DOM=0.5;PO=1;GO=1037;MT=849;AC=4;DP=1000;MULTIALLELIC       GT      0|0     0|0     0|0     0|0     0|0     0|0
1       58      .       A       T       1000    PASS    MID=595;S=0.0450203;DOM=0.5;PO=1;GO=1057;MT=228;AC=2;DP=1000;MULTIALLELIC       GT      0|0     1|0     0|0     0|0     1|0     0|0
1       233     .       A       T       1000    PASS    MID=668;S=-0.0447337;DOM=0.5;PO=1;GO=1070;MT=928;AC=1;DP=1000;MULTIALLELIC      GT      0|0     0|0     0|0     0|0     0|0     0|0
1       24      .       A       T       1000    PASS    MID=752;S=-0.104791;DOM=0.5;PO=1;GO=1083;MT=93;AC=1;DP=1000;MULTIALLELIC        GT      0|0     0|0     0|0     0|0     0|0     0|0
$

Answer

您可以使用常规名称通过其标准输入将 sed 脚本通过管道传输-。处理掉您提供的样品并丢弃未使用的$9，

grep -n = full.txt \
| awk -F'[:;\t]' '{sub(/.*=/,"",$13); print $1,$3,$13 }' \
| sort -nk2,3 \
| awk 'last==$2{print $1"d"}last=$2' \
# | sed -i -f- full.txt

如果你使用的是 Mac，他们强制要求备份扩展，你必须说sed -i '' etc将其关闭。

我认为最好使用一个承诺很大的文件，以便在排序之前尽可能多地减少数据。

当我插入$1"p"for$1"d"并运行它|sed -nf- full.txt来打印它要删除的行时，我得到

$ grep -n = full.txt     | awk -F'[:;\t]' '{sub(/.*=/,"",$13); print $1,$3,$13 }'     | sort -nk2,3     | awk 'last==$2{print $1"p"}{last=$2}' | sed -nf- full.txt
1       213     .       A       T       1000    PASS    MID=477;S=0.0600971;DOM=0.5;PO=1;GO=1037;MT=849;AC=4;DP=1000;MULTIALLELIC       GT      0|0     0|0     0|0     0|0     0|0     0|0
1       58      .       A       T       1000    PASS    MID=595;S=0.0450203;DOM=0.5;PO=1;GO=1057;MT=228;AC=2;DP=1000;MULTIALLELIC       GT      0|0     1|0     0|0     0|0     1|0     0|0
1       233     .       A       T       1000    PASS    MID=668;S=-0.0447337;DOM=0.5;PO=1;GO=1070;MT=928;AC=1;DP=1000;MULTIALLELIC      GT      0|0     0|0     0|0     0|0     0|0     0|0
1       24      .       A       T       1000    PASS    MID=752;S=-0.104791;DOM=0.5;PO=1;GO=1083;MT=93;AC=1;DP=1000;MULTIALLELIC        GT      0|0     0|0     0|0     0|0     0|0     0|0
$

将多个数字通过管道传送到 Sed 中

答案1

答案2

答案3

相关内容