如何使 wget 不多次下载同一个文件(带或不带扩展名)

如何使 wget 不多次下载同一个文件(带或不带扩展名)

我正在使用 wget 下载一些页面,如果已经下载过,我不希望它再下载相同的页面。我使用以下命令:

wget --no-clobber --input text04.txt --directory-prefix =/path/file

** text04.txt 文件每天都会有新链接,可能与前几天的链接相同

下载页面时,它们不带扩展名(在这种情况下为 .html)。这不允许文件正常打开,但如果我在 wget 下载后再次执行时添加扩展名,则“--no-clobber”命令将无用,因为 wget 会将添加的 .html 视为新文件。

您是否要添加扩展名(.html),并且当重新执行 wget 时不要多次下载同一个文件?

答案1

您需要添加一个选项--html-extension,因此命令将如下所示:

wget --no-clobber --html-extension --input text04.txt --directory-prefix =/path/file

这样.html扩展就会自动添加。

请参阅这个答案了解更多信息。

注意

不幸的是,wget无法.html在检查阶段添加扩展。因此,如果远程页面没有扩展,它将始终在指定--no-clobber和选项时重新下载页面,但它至少会更新并覆盖页面的现有本地副本,而不是写入另一个副本。--html-extension.html

祝你好运

相关内容