我并不是问如何下载标准网页或网站树,因为我知道如何做到这一点。
我遇到的问题是 wget/downloadthemall/HTTrack/FDM/IDM 等似乎不适用于博客格式。
理论上他们应该这样做,因为它仍然是一个带有链接的标准网页,但他们却没有这样做。
我尝试过使用 -m 和 -r -l3 的 wget,以及 downthemall,但都无济于事。
我遇到的问题是,这些下载程序似乎不遵循标签系统,或者没有意识到要跟踪的大部分内容都在“旧帖子”类型链接后面。
有没有办法可以定制其中一个下载程序的使用,使其遵循网站的特定路径,而无需编写脚本?
答案1
博客链接是否指向另一个域名,或者看起来像另一个域名?例如,您可能告诉 wget 从“someblog.com”获取所有内容,但链接指向“www.someblog.com”,虽然解析到同一页面,但仍可能使 wget 感到困惑。