wget 镜像未获取所有内容

wget 镜像未获取所有内容

我在跑

 wget -mk --no-check-certificate https://singpolyma.net/

它似乎正在拉取所有页面、资源和博客文章,但缺少大量 /actionstream/* URI。它获取了其中一些,并且每个页面都有上一个/下一个链接,这应该意味着它可以获取所有页面,但实际上并没有。输出中没有错误。

我尝试改变开始,https://singpolyma.net/actionstream/reply-httpidenti-canotice72478545-russellmcormond-thats/但那也没有用,事实上甚至较少的/actionstream/* 项目。

我肯定漏掉了一些开关。我以为 -m 中的 -l inf 可以做到这一点。

有任何想法吗?

答案1

你最有可能受到错误 #31354:wget 不解析通过 link rel="..." 链接的 html 文件。修复已在主干中一段时间​​(自r2434)。下面我粘贴了与此相关的 ChangeLog 摘录。

2010-10-18 Manfred Koizar(微小变化)

    * html-url.c (tag_handle_link): 不假设外部链接类型
    始终为“text/html”。

不幸的是,上一个正式发布的版本相当老旧(1.12 于 2009 年 9 月发布),因此您必须下载并构建更新的版本。GNU 软件有alpha.gnu.org/gnu网站,您可以在那里获取更新的版本。

相关内容