循环访问数千个文件进行大数据分析？

Question

如果您查看进程的输出codem1（无论是什么），它会指出它找不到该文件OG0018055- 这只是合乎逻辑的，因为该文件实际上被称为.OG0018055.fa

在您的脚本中，您可以.fa从文件名中的行中删除扩展名

gene_name="${filename%%.*}"

获取基因名称。然后，您可以将文件模板中sed出现的所有模式替换为该基因名称。GENE但是，这意味着在更新的codeml_0.ctl文件中，该seqfile行如下所示：

seqfile = ../pamlfiles/OG0018055

所以.fa这里缺少扩展名。

所以，只需修改你的模板文件来读取

seqfile = ../pamlfiles/GENE.fa

这样.fa文件扩展名就不会丢失。

Answer 1