我正在使用 wget 下载一些页面,如果已经下载过,我不希望它再下载相同的页面。我使用以下命令:
wget --no-clobber --input text04.txt --directory-prefix =/path/file
** text04.txt 文件每天都会有新链接,可能与前几天的链接相同
下载页面时,它们不带扩展名(在这种情况下为 .html)。这不允许文件正常打开,但如果我在 wget 下载后再次执行时添加扩展名,则“--no-clobber”命令将无用,因为 wget 会将添加的 .html 视为新文件。
您是否要添加扩展名(.html),并且当重新执行 wget 时不要多次下载同一个文件?
答案1
您需要添加一个选项--html-extension
,因此命令将如下所示:
wget --no-clobber --html-extension --input text04.txt --directory-prefix =/path/file
这样.html
扩展就会自动添加。
请参阅这个答案了解更多信息。
注意:
不幸的是,wget
无法.html
在检查阶段添加扩展。因此,如果远程页面没有扩展,它将始终在指定--no-clobber
和选项时重新下载页面,但它至少会更新并覆盖页面的现有本地副本,而不是写入另一个副本。--html-extension
.html
祝你好运