递归镜像托管博客

2024-6-12 • tag-icon

我并不是问如何下载标准网页或网站树，因为我知道如何做到这一点。

我遇到的问题是 wget/downloadthemall/HTTrack/FDM/IDM 等似乎不适用于博客格式。

理论上他们应该这样做，因为它仍然是一个带有链接的标准网页，但他们却没有这样做。

我尝试过使用 -m 和 -r -l3 的 wget，以及 downthemall，但都无济于事。

我遇到的问题是，这些下载程序似乎不遵循标签系统，或者没有意识到要跟踪的大部分内容都在“旧帖子”类型链接后面。

有没有办法可以定制其中一个下载程序的使用，使其遵循网站的特定路径，而无需编写脚本？

博客链接是否指向另一个域名，或者看起来像另一个域名？例如，您可能告诉 wget 从“someblog.com”获取所有内容，但链接指向“www.someblog.com”，虽然解析到同一页面，但仍可能使 wget 感到困惑。

相关内容