我在跑
wget -mk --no-check-certificate https://singpolyma.net/
它似乎正在拉取所有页面、资源和博客文章,但缺少大量 /actionstream/* URI。它获取了其中一些,并且每个页面都有上一个/下一个链接,这应该意味着它可以获取所有页面,但实际上并没有。输出中没有错误。
我尝试改变开始,https://singpolyma.net/actionstream/reply-httpidenti-canotice72478545-russellmcormond-thats/
但那也没有用,事实上甚至较少的/actionstream/* 项目。
我肯定漏掉了一些开关。我以为 -m 中的 -l inf 可以做到这一点。
有任何想法吗?
答案1
你最有可能受到错误 #31354:wget 不解析通过 link rel="..." 链接的 html 文件。修复已在主干中一段时间(自r2434)。下面我粘贴了与此相关的 ChangeLog 摘录。
2010-10-18 Manfred Koizar(微小变化) * html-url.c (tag_handle_link): 不假设外部链接类型 始终为“text/html”。
不幸的是,上一个正式发布的版本相当老旧(1.12 于 2009 年 9 月发布),因此您必须下载并构建更新的版本。GNU 软件有alpha.gnu.org/gnu网站,您可以在那里获取更新的版本。