Wget 总是下载 index.html?

Wget 总是下载 index.html?

我正在使用以下命令:

wget -r -p --page-requisites robots=off -U mozilla https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab/archive/all/

下载一个名为的文件all_structures.zip,我也尝试过: wget -r -p --page-requisites robots=off -U mozilla https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab/archive/all/all_structures.zip

在第一种情况下,index.html下载了一个文件,html 文件看起来与我需要的文件大小相同。

我也尝试过使用reject参数来排除 html 文件,但它只会下载一个名为 的文件index.html.tmp

在第二种情况下,wget 命令出错,声称找不到该文件。

如果您在浏览器中访问该链接,它将启动文件下载。

不确定这里发生了什么,如有任何帮助我将不胜感激。

谢谢!

答案1

也许该网站正在使用脚本来启动文件下载,让我们尝试curl使用wget

curl -O -J -L -A "Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0" https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab/archive/all/all_structures.zip

如果仍然不起作用,则网站可能需要一些特定事件,例如接受 cookie 或 javascript。

相关内容