我曾两次尝试从PubChem FTP 服务器,一次通过 wget,一次通过 chrome 手动,但两次都导致文件损坏。例如,第一个和它的 MD5 哈希文件在这里:
Compound_000000001_000500000.xml.gz
Compound_000000001_000500000.xml.gz.md5
打开 MD5 文件我看到以下内容:
be9a076090e9b263611c1fc7acf139a6 Compound_000000001_000500000.xml.gz
但是在 xml.gz 文件上运行命令时,我看到的是:
$ md5 Compound_000000001_000500000.xml.gz
MD5 (Compound_000000001_000500000.xml.gz) = 6eb5713212c085a1af89b0e31f09f9b9
$ gunzip -tv Compound_000000001_000500000.xml.gz
gunzip: data stream error
gunzip: Compound_000000001_000500000.xml.gz: uncompress failed
Compound_000000001_000500000.xml.gz: NOT OK
因此 MD5 哈希值似乎不匹配......
同样,如果我尝试使用内置的 Mac 功能/应用程序解压文件,它会显示错误“文件已损坏”。下载过程中没有出现任何错误。
发生了什么事?我联系了 PubChem 的某个人,他说他们没问题,MD5 验证正确。是不是有一些我不知道的浏览器设置或路由器设置妨碍了?我该如何修复这个问题,以免文件损坏?
我可以使用 Node.js 通过 gunzipper 传输 gzip 压缩文件,并且可以看到 XML,因此至少部分正确。但是它在解析文件 10 秒左右后也会出现错误。
会发生什么奇怪的事情吗?
答案1
根据您提供的信息,我认为该文件确实已损坏。我会向任何网站报告您试图这样做的情况并通知他们。此外,如果您安装了 wine(或 Windows 计算机),请尝试使用 7-zip。如果 7-zip 显示错误,那么我知道它确实已损坏。