awk 版本:GNU Awk 4.1.1,API:1.1(GNU MPFR 3.1.2-p3、GNU MP 6.0.0)
我有以下输入(小例子):
Lh8627_00055___transposase_3 c368296268f9d0100b8a65d2cd57aaf2 424 Pfam PF01610 Transposase 297 404 1.8E-11 T 22-06-2017 IPR002560 Transposase IS204/IS1001/IS1096/IS1165, DDE domain
Lh8627_05835___transposase_1 212014f87f94178312dac70f061d81c6 469 Pfam PF06782 Uncharacterised protein family (UPF0236) 30 399 4.5E-37 T 22-06-2017 IPR009620 Uncharacterised protein family UPF0236
Lh8627_03700___transposase_3 916962acc8271c66b217ab903d836768 401 Pfam PF06782 Uncharacterised protein family (UPF0236) 201 334 4.4E-6 T 22-06-2017 IPR009620 Uncharacterised protein family UPF0236
Lh8627_01850___transposase_1 05e46b0f13cf6aa7db8adcf5fd3fd39d 409 Pfam PF01548 Transposase 8 160 3.0E-29 T 22-06-2017 IPR002525 Transposase, IS111A/IS1328/IS1533, N-terminal GO:0003677|GO:0004803|GO:0006313
我想过滤第 9 列中的值低于 1.0E-10 的行
我的命令是awk '$9 < 1.0E-10' my file
。但例如,它不会过滤上面小输入中的第三行。我究竟做错了什么?
答案1
我的问题是我不明白 awk 还使用空格作为分隔符而不仅仅是制表符。添加后就-F'\t'
可以工作了。数量对比还是不错的。
答案2
你的指挥很好。但是,您的输入不是:示例中的第 9 个成员并不总是预期的数字:
$ awk '{print $9}' <your_file>
1.8E-11
(UPF0236)
(UPF0236)
3.0E-29
例如,您可以使用以下命令删除不需要的元素来重新排列输入sed
:
sed 's/protein family (UPF0236)//' <your_file> | awk '$9 < 1.0E-10'