在 Linux 中从 Fasta 文件中提取列

Question 1

使用awk：

awk -F ':' '/^>/ { sub(" .*",    "", $10)
                   sub(" \\[.*", "", $11)
                   print $10, $11 }' file.fa

您想要提取的数据是[每个标题行的第 10 个字段中的第一个单词以及直到第 11 个字段中的所有内容（如果这些字段是:分隔的）。

该代码会删除第 10 个字段中第一个空格以及[第 11 个字段中之后的所有内容（包括[前面的空格）。

然后打印修改后的第 10 和 11 字段。

给出问题中数据的输出：

TRBD1 T cell receptor beta diversity 1
TRDD2 T cell receptor delta diversity 2

Answer

使用awk：

awk -F ':' '/^>/ { sub(" .*",    "", $10)
                   sub(" \\[.*", "", $11)
                   print $10, $11 }' file.fa

您想要提取的数据是[每个标题行的第 10 个字段中的第一个单词以及直到第 11 个字段中的所有内容（如果这些字段是:分隔的）。

该代码会删除第 10 个字段中第一个空格以及[第 11 个字段中之后的所有内容（包括[前面的空格）。

然后打印修改后的第 10 和 11 字段。

给出问题中数据的输出：

TRBD1 T cell receptor beta diversity 1
TRDD2 T cell receptor delta diversity 2

Question 2

尝试这样的事情：

cat ... | sed -n '/^>/ { s/.*description: *//; s/\[.*//; p; }'

（未经测试，因为我在移动设备上。）

还有更优雅的方式；例如 Awk 循环是最灵活的。

Answer

尝试这样的事情：

cat ... | sed -n '/^>/ { s/.*description: *//; s/\[.*//; p; }'

（未经测试，因为我在移动设备上。）

还有更优雅的方式；例如 Awk 循环是最灵活的。

相关内容