我在 WayBack machine 上发现了一个很棒的网站,但目前无法使用,而且域名正在出售。我想离线使用它。我尝试使用 WinHTTrack,但由于 WayBack Machine 的结构,它只能保存主页。
我正在使用 Windows,如果您能帮助我下载它将非常感激。
谢谢。
答案1
刚刚注意到,几年前的这个问题我还没有解决。虽然当时我找不到除通用爬虫之外的合适选项,但后来在 GitHub 等网站上出现了多个选项。虽然我个人没有使用过其中任何一个,但我想在这里记录下来,供那些仍在寻找方法的人参考。
一个例子是hartator/wayback-machine-downloader,它似乎与平台无关(Ruby .gem)。它描述了它的工作原理如下:
它会将 Wayback Machine 上存在的每个文件的最新版本下载到 ./websites/example.com/。它还会重新创建目录结构并自动创建 index.html 页面,以便与 Apache 和 Nginx 无缝协作。下载的所有文件都是原始文件,而不是 Wayback Machine 重写的版本。这样,URL 和链接结构就与以前相同了。
希望这能帮助那些多年前遇到过同样问题的人。除非有人有更好的答案,否则我会将此标记为已解决。
答案2
虽然我们一般不会在这个网站上做产品推荐 - 但我建议你看看 J-Spider 项目(http://j-spider.sourceforge.net/)。该产品允许完整下载网站以及进行链接测试、站点地图生成等各种操作。
这是一个非常有用的工具。