如何使用 awk 获取所需的输出并将输出添加到另一个文件中？

Question 1

使用awk，如果分隔符是空格或更多，那么你可以尝试；

$ awk -F' +|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

不过，如果确实是选项卡，那么你可以尝试；

awk -F'\t|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

输出

gene_id      transcript_id    column3  column4  column5  column6  num
XLOC_000017  transc_00000019  -        -        -        -        282
XLOC_000001  transc_00000001  -        -        -        -        320
XLOC_000002  transc_00000002  -        -        -        -        289
XLOC_000003  transc_00000003  -        -        -        -        207

Answer

使用awk，如果分隔符是空格或更多，那么你可以尝试；

$ awk -F' +|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

不过，如果确实是选项卡，那么你可以尝试；

awk -F'\t|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

输出

gene_id      transcript_id    column3  column4  column5  column6  num
XLOC_000017  transc_00000019  -        -        -        -        282
XLOC_000001  transc_00000001  -        -        -        -        320
XLOC_000002  transc_00000002  -        -        -        -        289
XLOC_000003  transc_00000003  -        -        -        -        207

Question 2

输入中字段之间的空格不是制表符，因此不要告诉 awk 它们是带有的制表符-F"\t"，只需删除该语句并更改ID=substr($9, length($9)-16, 15)为ID=substr($0, length($0)-16, 15)（或者如果您愿意，可以使用 $NF 而不是 $0）：

$ awk '$3=="transcript" {ID=substr($0, length($0)-16, 15); L[ID]+=$5-$4+1}
           END{for(i in L){print i"\t"L[i]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

看起来您在通话中使用的号码substr()已关闭，并且您缺少 prepending transc_，我希望您可以解决这个问题。

无论您输入的空格是什么，上述内容都将起作用。

顺便说一句，不要使用全部大写的变量名，这样它们就不会与内置变量名冲突，并且永远不要使用字母l作为变量名，因为它看起来太像数字了1。另外，使用 OFS 指定分隔输出字段的内容：

$ awk -v OFS='\t' '$3=="transcript" {id=substr($0, length($0)-16, 15); num[id]+=$5-$4+1}
           END{for(id in num){print id, num[id]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

Answer

输入中字段之间的空格不是制表符，因此不要告诉 awk 它们是带有的制表符-F"\t"，只需删除该语句并更改ID=substr($9, length($9)-16, 15)为ID=substr($0, length($0)-16, 15)（或者如果您愿意，可以使用 $NF 而不是 $0）：

$ awk '$3=="transcript" {ID=substr($0, length($0)-16, 15); L[ID]+=$5-$4+1}
           END{for(i in L){print i"\t"L[i]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

看起来您在通话中使用的号码substr()已关闭，并且您缺少 prepending transc_，我希望您可以解决这个问题。

无论您输入的空格是什么，上述内容都将起作用。

顺便说一句，不要使用全部大写的变量名，这样它们就不会与内置变量名冲突，并且永远不要使用字母l作为变量名，因为它看起来太像数字了1。另外，使用 OFS 指定分隔输出字段的内容：

$ awk -v OFS='\t' '$3=="transcript" {id=substr($0, length($0)-16, 15); num[id]+=$5-$4+1}
           END{for(id in num){print id, num[id]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

如何使用 awk 获取所需的输出并将输出添加到另一个文件中？

答案1

答案2

相关内容