获取文件作为行和列数据矩阵

Question 1

与米勒一起，使用重塑

mlr --tsv cut -o -f id4,id1,count2 then reshape -s id1,count2 input.tsv

你将会拥有

id4     S1001   S1002   S1003   S1004
ARHGAP18        1483    5353    330     970
ARHGAP12        3698    14      2263    816
ARHGAP15        93      5381    3147    4981
ARHGAP17        1889    105     50      816
ARHGAP19        596     5764    1595    4981

我设置了一个 TSV 文件作为输入和输出。您的文本文件选项卡是否分开？

一些评论：

--tsv是设置输入输出格式；
cut仅提取 id4、id1 和 count2；
reshape来修改结构。

Answer

与米勒一起，使用重塑

mlr --tsv cut -o -f id4,id1,count2 then reshape -s id1,count2 input.tsv

你将会拥有

id4     S1001   S1002   S1003   S1004
ARHGAP18        1483    5353    330     970
ARHGAP12        3698    14      2263    816
ARHGAP15        93      5381    3147    4981
ARHGAP17        1889    105     50      816
ARHGAP19        596     5764    1595    4981

我设置了一个 TSV 文件作为输入和输出。您的文本文件选项卡是否分开？

一些评论：

--tsv是设置输入输出格式；
cut仅提取 id4、id1 和 count2；
reshape来修改结构。

Question 2

你要求的是一个交叉制表（或数据透视表）。你可以使用它来实现GNU 数据混合

datamash --header-in --whitespace crosstab id4,id1 unique count2 < file
    S1001   S1002   S1003   S1004
ARHGAP12    3698    14  2263    816
ARHGAP15    93  5381    3147    4981
ARHGAP17    1889    105 50  816
ARHGAP18    1483    5353    330 970
ARHGAP19    596 5764    1595    4981

--whitespace（如果您的数据是制表符分隔的，则可以跳过）。

然而，可能有更适合该任务的专用生物信息学工具。

Answer

你要求的是一个交叉制表（或数据透视表）。你可以使用它来实现GNU 数据混合

datamash --header-in --whitespace crosstab id4,id1 unique count2 < file
    S1001   S1002   S1003   S1004
ARHGAP12    3698    14  2263    816
ARHGAP15    93  5381    3147    4981
ARHGAP17    1889    105 50  816
ARHGAP18    1483    5353    330 970
ARHGAP19    596 5764    1595    4981

--whitespace（如果您的数据是制表符分隔的，则可以跳过）。

然而，可能有更适合该任务的专用生物信息学工具。

获取文件作为行和列数据矩阵

答案1

答案2

相关内容