我正在使用以下命令来镜像 https 网站:
wget --directory-prefix=/tmp/mirror --mirror --no-host-directories \
--regex-type pcre --reject-regex "$SKIP_REGEXP" \
--convert-links --adjust-extension --header "Accept-Language: en-US,en" \
--header "X-Build-Mirror: True" -o /tmp/mirror.log https://logic.ff.cuni.cz
(实际上,该命令作为一行运行 - 为了提高可读性,我将其分成几行。)
根据文档标记后--convert-links
,已下载文件的链接将转换为相对链接,以便本地查看,而未下载的文件的链接(例如由于--reject-regexp
)将转换为绝对链接。然而,在转换过程中,虽然主机 URL 是httpsurl,所有绝对链接都变为http链接!!
这是一个错误wget
还是有某种方法可以强制它遵守协议类型?(我知道我可以使用--https-only
旗帜,但这样会阻止获得任何http 资源。