这个 bcf 错误是什么意思?

这个 bcf 错误是什么意思?

我运行此代码来从我的 vcf 文件中过滤掉双等位基因变体:

bcftools view --max-alleles 2 --exclude-types indels merged.ecDNA.vcf.gz>merged.ecDNA2.vcf.gz

但是,我收到一条错误消息:

[E::vcf_parse_format] Number of columns at 1:219048632 does not match the number of samples (111 vs 231)
Error: VCF parse error

问题是,merged.ecDNA2.vcf.gz仍然出现在我的目录中,并且它似乎是一个可用的 vcf 文件。所以我想知道,如果我的代码实际上生成了一个看起来正常运行的 vcf 文件,上述错误是否仍然会对我的输出文件产生任何影响?

这个数字应该1:219048632指什么?

我也尝试过这段代码:

bcftools view -m2 -M2 -v snps merged.ecDNA.vcf.gz>merged.ecDNA3.vcf.gz

对于上述代码,我收到了相同的错误消息。

如果有人可以给出该错误消息含义的一般解释,那将非常有帮助。

答案1

我因为不同的原因而遇到了同样的错误,但一般原因是在创建 VCF 文件的过程中,文件损坏了。例如,如果您从 .txt 文件开始,可能会出现某些行中的列数多于其他行的情况。

例如,有一次我得到一个文件,该文件在假定的行结束后没有开始新行。这使列数增加了一倍,并且我遇到了类似的错误。

在这些情况下我会做的是检查该特定位置。

bcftools view -H merged.ecDNA2.vcf.gz | grep 219048632 -A 3 -B 3 

通过搜索 219048632,您将找到损坏的行,并且它将打印 3 行之前和之后,以便您可以看到实际问题是什么。

相关内容