为什么 wget 无法从该网站镜像 .zip 文件？

2024-11-20 • tag-icon

本网站包含指向一堆子页面（如 /zx-origins/sub-page）的链接，而这些页面又包含指向子域上的 .zip 文件的链接。我的目标是通过一个不错的命令获取这些 .zip 文件，我原以为这会比实际简单得多。

首先，我已使用 curl 和 grep 确保所有链接均在服务器端呈现，因此我知道这些链接在 Javascript 之前就已存在。我的浏览器中也已禁用 JS。

我看到的唯一不一致之处是 .zip 文件的最终链接没有协议，只有//download.damieng.com......

这是 wget 的一个错误还是功能不允许我在没有协议的情况下跟踪链接？

到目前为止，我的理由是，使用 wget 的 -m（镜像）和 -A（接受列表）应该相对简单。

wget -m -e robots=off -D download.damieng.com,damieng.com -A .zip https://damieng.com/typography/zx-origins/

我尝试使用 -d（调试）运行它，但它甚至没有列出 .zip 文件链接的路径，这让我更加困惑。我希望一些 wget 忍者可以启发我。

相关内容