使用 Wget 我无法下载整个网站

使用 Wget 我无法下载整个网站

我想下载整个网站,但如果我想终止它,也可以恢复该工作。我的问题是,当我第二次运行该命令时,它永远不会进入之前创建的子文件夹。我也
尝试了该选项,但发生了同样的错误现在我正在使用如下命令:--mirror--no-clobber

wget --recursive -l inf --no-clobber --page-requisites --no-parent --domains xxx https://xxx/

特别是这是我得到的一个例子:

--2021-01-09 15:46:11--  https://domain/subfolder/
Reusing existing connection to domain:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
domain/subfolder: Is a directory

Cannot write to ‘domain/subfolder’ (Success).

我第二次运行它时,命令很快停止,跳过目录内文件的所有检查。

是否有解决方案可以对上一个作业已创建的文件夹进行一些检查wget

答案1

今天我明白了,问题不在于递归或延续的选项,而在于 301 响应返回。我仍然不明白为什么第一次会遵循,但现在一切正常。我可以停止作业并恢复,检查每个文件后 wget 将下载新的内容或继续之前的下载。一如既往,有人遇到同样的问题,这是链接 https://lists.gnu.org/archive/html/bug-wget/2019-11/msg00036.html

如果可以帮助某人,我现在使用的命令是 wget -r --mirror -N -l inf --no-parent -R --trust-server-names --content-disposition --continue --domains site https://网站

正如您在过去的问题中看到和阅读的那样,允许跟随重定向的选项是 --trust-server-names。然后我结合 --content-disposition ,一切正常。

感谢大家的帮助

答案2

您正在寻找的是一种选项--timestamping-N简而言之),该选项仅检索比现有文件更新的文件。

仅供参考,我有时实际使用的命令是:

wget -c -N -mirror -pc --convert-links -P ./mirror $SITE_URL

相关内容