本网站包含指向一堆子页面(如 /zx-origins/sub-page)的链接,而这些页面又包含指向子域上的 .zip 文件的链接。我的目标是通过一个不错的命令获取这些 .zip 文件,我原以为这会比实际简单得多。
首先,我已使用 curl 和 grep 确保所有链接均在服务器端呈现,因此我知道这些链接在 Javascript 之前就已存在。我的浏览器中也已禁用 JS。
我看到的唯一不一致之处是 .zip 文件的最终链接没有协议,只有//download.damieng.com
......
这是 wget 的一个错误还是功能不允许我在没有协议的情况下跟踪链接?
到目前为止,我的理由是,使用 wget 的 -m(镜像)和 -A(接受列表)应该相对简单。
wget -m -e robots=off -D download.damieng.com,damieng.com -A .zip https://damieng.com/typography/zx-origins/
我尝试使用 -d(调试)运行它,但它甚至没有列出 .zip 文件链接的路径,这让我更加困惑。我希望一些 wget 忍者可以启发我。