awk 的 substr 替换

Question 1

正如评论中提到的，应该可以将整个 AWK 和 sed 调用链实现为单个 AWK 程序。

要回答您提出的问题，要检查第三个字段的最后一个字符是否为“1”，您可以使用

$3 ~ /1$/

而不是substr，所以在你的情况下

$3 ~ /1$/ {print $3$2,$1}

Answer

正如评论中提到的，应该可以将整个 AWK 和 sed 调用链实现为单个 AWK 程序。

要回答您提出的问题，要检查第三个字段的最后一个字符是否为“1”，您可以使用

$3 ~ /1$/

而不是substr，所以在你的情况下

$3 ~ /1$/ {print $3$2,$1}

Question 2

我想出

$3 == "CDS" && $1 ~ /1$/ {
        split($9,A,";") ;
        B=substr(A[4],6) ;
        V[B $7] = $1 ;
}
END {
        for (u in V) {
                print u  >> V[u] ;
                close(V[u]) ;
        }
}

结果是 17042 个文件。

$3 == "CDS" && $1 ~ /1$/ 对于awk '$3=="CDS"'和 awk 'substr($3,11,11)==1
split($9,A,";") ;对于 sed 's/;/\t/g'和 awk '{print $1,$7,$12}'
B=substr(A[4],6) ;为了sed 's/Name=//g'
V[B $7] = $1 ;对于sort和uniq

要执行脚本，请在中插入代码filter.awk，然后

awk -f filter.awk file_to_parse

Answer

我想出

$3 == "CDS" && $1 ~ /1$/ {
        split($9,A,";") ;
        B=substr(A[4],6) ;
        V[B $7] = $1 ;
}
END {
        for (u in V) {
                print u  >> V[u] ;
                close(V[u]) ;
        }
}

结果是 17042 个文件。

$3 == "CDS" && $1 ~ /1$/ 对于awk '$3=="CDS"'和 awk 'substr($3,11,11)==1
split($9,A,";") ;对于 sed 's/;/\t/g'和 awk '{print $1,$7,$12}'
B=substr(A[4],6) ;为了sed 's/Name=//g'
V[B $7] = $1 ;对于sort和uniq

要执行脚本，请在中插入代码filter.awk，然后

awk -f filter.awk file_to_parse

Question 3

使用gawk和变量tgt来定义要选择的字段的名称......

awk -F"[\t;:,=]" -v tgt="Genbank" '$3=="CDS"{
   for (f=4; f<=NF; f++) if ($f ~ tgt) {
     if ( $(f+1) ~ /\.1$/ ) out[$(f+1)$7" "$1]=$1".lst"}}
   END{PROCINFO["sorted_in"]="@ind_num_asc"; 
      for (o in out) print o > out[o]}' GCF_000393655.1_Nsyl_genomic.gff

tail *.lst 

==> NW_009592652.1.lst <==
XP_009779696.1- NW_009592652.1

==> NW_009592685.1.lst <==
XP_009779697.1+ NW_009592685.1
XP_009779699.1- NW_009592685.1

==> NW_009592688.1.lst <==
XP_009779700.1+ NW_009592688.1
XP_009779701.1+ NW_009592688.1
XP_009779702.1+ NW_009592688.1

==> NW_009592716.1.lst <==
XP_009779703.1+ NW_009592716.1

根据评论重复tgt="Parent"并输入test.gff3

tail *.lst

==> NbV1Ch18.lst <==
NBlab18G26040.1+ NbV1Ch18
NBlab18G26050.1- NbV1Ch18
NBlab18G26060.1+ NbV1Ch18
NBlab18G26070.1+ NbV1Ch18
NBlab18G26080.1- NbV1Ch18
NBlab18G26090.1- NbV1Ch18
NBlab18G26100.1- NbV1Ch18
NBlab18G26110.1- NbV1Ch18
NBlab18G26120.1+ NbV1Ch18
NBlab18G26130.1+ NbV1Ch18

==> NbV1Ch19.lst <==
NBlab19G29030.1+ NbV1Ch19
NBlab19G29040.1- NbV1Ch19
NBlab19G29050.1- NbV1Ch19
NBlab19G29060.1- NbV1Ch19
NBlab19G29070.1+ NbV1Ch19
NBlab19G29080.1+ NbV1Ch19
NBlab19G29090.1- NbV1Ch19
NBlab19G29100.1- NbV1Ch19
NBlab19G29110.1- NbV1Ch19
NBlab19G29120.1- NbV1Ch19

演练

选择您所需的字段tgt并首先选择记录CDS

awk -F"[\t;:,=]" -v tgt="Genbank" '$3=="CDS"{

迭代字段直到找到tgt

   for (f=4; f<=NF; f++) if ($f ~ tgt) {

检查您的目标字段值是否$(f+1)以结尾.1，如果是，则将格式化输出存储在数组中，out并使用您希望其转到的文件名值

     if ( $(f+1) ~ /\.1$/ ) out[$(f+1)$7" "$1]=$1".lst"}}

完成后，然后设置awk根据数组中索引的数字升序对输出数组进行迭代

   END{PROCINFO["sorted_in"]="@ind_num_asc";

然后只需迭代数组，将所需的索引打印o到相应的文件中out[o]

      for (o in out) print o > out[o]}' GCF_000393655.1_Nsyl_genomic.gff

Answer