我正在使用以下命令:
wget -r -p --page-requisites robots=off -U mozilla https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab/archive/all/
下载一个名为的文件all_structures.zip
,我也尝试过:
wget -r -p --page-requisites robots=off -U mozilla https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab/archive/all/all_structures.zip
在第一种情况下,index.html
下载了一个文件,html 文件看起来与我需要的文件大小相同。
我也尝试过使用reject
参数来排除 html 文件,但它只会下载一个名为 的文件index.html.tmp
。
在第二种情况下,wget 命令出错,声称找不到该文件。
如果您在浏览器中访问该链接,它将启动文件下载。
不确定这里发生了什么,如有任何帮助我将不胜感激。
谢谢!
答案1
也许该网站正在使用脚本来启动文件下载,让我们尝试curl
使用wget
curl -O -J -L -A "Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0" https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab/archive/all/all_structures.zip
如果仍然不起作用,则网站可能需要一些特定事件,例如接受 cookie 或 javascript。