我有多个文本文件,如下所示:
文件1.txt:
# Program:featureCounts v1.6.0; Command:"featureCounts" "-a" "/documents/gencode_Release27_GRCh38.p10_PRI/gencode.v27.primary_assembly.annotation_nochr.gtf" "-F" "GTF" "-p" "-s" "2" "-T" "8" "-o" "/read_counts/S100A.txt" "/documents/S100A.sorted.bam"
Geneid Chr Start End Strand Length /path/to/documents/S100A.sorted.bam
ENSG00000223972.5 1;1;1;1;1;1;1;1;1 11869;12010;12179;12613;12613;12975;13221;13221;13453 12227;12057;12227;12721;12697;13052;13374;14409;13670 +;+;+;+;+;+;+;+;+ 1735 0
ENSG00000227232.5 1;1;1;1;1;1;1;1;1;1;1 14404;15005;15796;16607;16858;17233;17606;17915;18268;24738;29534 14501;15038;15947;16765;17055;17368;17742;18061;18366;24891;29570 -;-;-;-;-;-;-;-;-;-;- 1351 0
ENSG00000278267.1 1 17369 17436 - 68 0
ENSG00000243485.5 1;1;1;1;1 29554;30267;30564;30976;30976 30039;30667;30667;31109;31097 +;+;+;+;+ 1021 0
ENSG00000284332.1 1 30366 30503 + 138 0
ENSG00000237613.2 1;1;1;1;1 34554;35245;35277;35721;35721 35174;35481;35481;36073;36081 -;-;-;-;- 1219 0
文件2.txt:
# Program:featureCounts v1.6.0; Command:"featureCounts" "-a" "/documents/gencode_Release27_GRCh38.p10_PRI/gencode.v27.primary_assembly.annotation_nochr.gtf" "-F" "GTF" "-p" "-s" "2" "-T" "8" "-o" "/read_counts/S106.txt" "/documents/S106.sorted.bam"
Geneid Chr Start End Strand Length /path/to/documents/S106.sorted.bam
ENSG00000223972.5 1;1;1;1;1;1;1;1;1 11869;12010;12179;12613;12613;12975;13221;13221;13453 12227;12057;12227;12721;12697;13052;13374;14409;13670 +;+;+;+;+;+;+;+;+ 1735 0
ENSG00000227232.5 1;1;1;1;1;1;1;1;1;1;1 14404;15005;15796;16607;16858;17233;17606;17915;18268;24738;29534 14501;15038;15947;16765;17055;17368;17742;18061;18366;24891;29570 -;-;-;-;-;-;-;-;-;-;- 1351 42
ENSG00000278267.1 1 17369 17436 - 68 12
ENSG00000243485.5 1;1;1;1;1 29554;30267;30564;30976;30976 30039;30667;30667;31109;31097 +;+;+;+;+ 1021 0
ENSG00000284332.1 1 30366 30503 + 138 0
ENSG00000237613.2 1;1;1;1;1 34554;35245;35277;35721;35721 35174;35481;35481;36073;36081 -;-;-;-;- 1219 1
就像上面我有超过 100 个文本文件。我想将它们组合成单个文本文件,如下所示。
输出应如下所示:
Geneid S100A S106
ENSG00000223972.5 0 0
ENSG00000227232.5 0 42
ENSG00000278267.1 0 12
ENSG00000243485.5 0 0
ENSG00000284332.1 0 0
ENSG00000237613.2 0 1
为了删除文本文件中的第一行,我使用了这个tail -n +2 S100A.txt
.但我必须对每个文件单独执行此操作。如何在 Linux 中使用代码获得所需的输出。
答案1
Awk
解决方案:
awk 'BEGIN{ head = "Geneid" }
FNR == 2{
gsub(/^.+documents\/|\.sorted\.bam$/, "", $NF);
head = head "\t" $NF
}
FNR > 2{
genes[$1] = genes[$1] "\t" $NF;
order[FNR-2] = $1
}
END{
print head;
for (i = 1; i <= FNR-2; i++) print order[i] genes[order[i]]
}' file*.txt
FNR
- 正在读取的记录数$NF
- 最后一个字段值(NF
本身指向字段总数)genes
- 包含每个最后字段值的累积序列的数组基因ID;该数组的索引为基因idorder
- 用记录号索引的辅助数组以保持初始顺序基因id
答案2
您还可以尝试:
ls -1 *featureCount.txt | parallel 'cat {} | sed '1d' | cut -f7 {} > {/.}_clean.txt'
ls -1 *featureCount.txt | head -1 | xargs cut -f1 > genes.txt
paste genes.txt *featureCount_clean.txt > output.txt