如何在linux中基于列连接文本文件并删除第一行？

Question 1

Awk解决方案：

awk 'BEGIN{ head = "Geneid" }
     FNR == 2{ 
         gsub(/^.+documents\/|\.sorted\.bam$/, "", $NF);
         head = head "\t" $NF 
     }
     FNR > 2{ 
         genes[$1] = genes[$1] "\t" $NF;
         order[FNR-2] = $1
     }
     END{ 
         print head; 
         for (i = 1; i <= FNR-2; i++) print order[i] genes[order[i]]
     }' file*.txt

FNR- 正在读取的记录数
$NF- 最后一个字段值（NF本身指向字段总数）
genes- 包含每个最后字段值的累积序列的数组基因ID;该数组的索引为基因id
order- 用记录号索引的辅助数组以保持初始顺序基因id

Answer

Awk解决方案：

awk 'BEGIN{ head = "Geneid" }
     FNR == 2{ 
         gsub(/^.+documents\/|\.sorted\.bam$/, "", $NF);
         head = head "\t" $NF 
     }
     FNR > 2{ 
         genes[$1] = genes[$1] "\t" $NF;
         order[FNR-2] = $1
     }
     END{ 
         print head; 
         for (i = 1; i <= FNR-2; i++) print order[i] genes[order[i]]
     }' file*.txt

FNR- 正在读取的记录数
$NF- 最后一个字段值（NF本身指向字段总数）
genes- 包含每个最后字段值的累积序列的数组基因ID;该数组的索引为基因id
order- 用记录号索引的辅助数组以保持初始顺序基因id

Question 2

您还可以尝试：

ls -1  *featureCount.txt | parallel 'cat {} | sed '1d' | cut -f7 {} > {/.}_clean.txt' 
ls -1  *featureCount.txt | head -1 | xargs cut -f1 > genes.txt
paste genes.txt *featureCount_clean.txt > output.txt

Answer

您还可以尝试：

ls -1  *featureCount.txt | parallel 'cat {} | sed '1d' | cut -f7 {} > {/.}_clean.txt' 
ls -1  *featureCount.txt | head -1 | xargs cut -f1 > genes.txt
paste genes.txt *featureCount_clean.txt > output.txt

如何在linux中基于列连接文本文件并删除第一行？

答案1

答案2

相关内容