从 WayBack Machine 下载网站

Question 1

刚刚注意到，几年前的这个问题我还没有解决。虽然当时我找不到除通用爬虫之外的合适选项，但后来在 GitHub 等网站上出现了多个选项。虽然我个人没有使用过其中任何一个，但我想在这里记录下来，供那些仍在寻找方法的人参考。

一个例子是hartator/wayback-machine-downloader，它似乎与平台无关（Ruby .gem）。它描述了它的工作原理如下：

它会将 Wayback Machine 上存在的每个文件的最新版本下载到 ./websites/example.com/。它还会重新创建目录结构并自动创建 index.html 页面，以便与 Apache 和 Nginx 无缝协作。下载的所有文件都是原始文件，而不是 Wayback Machine 重写的版本。这样，URL 和链接结构就与以前相同了。

希望这能帮助那些多年前遇到过同样问题的人。除非有人有更好的答案，否则我会将此标记为已解决。

Answer

刚刚注意到，几年前的这个问题我还没有解决。虽然当时我找不到除通用爬虫之外的合适选项，但后来在 GitHub 等网站上出现了多个选项。虽然我个人没有使用过其中任何一个，但我想在这里记录下来，供那些仍在寻找方法的人参考。

一个例子是hartator/wayback-machine-downloader，它似乎与平台无关（Ruby .gem）。它描述了它的工作原理如下：

它会将 Wayback Machine 上存在的每个文件的最新版本下载到 ./websites/example.com/。它还会重新创建目录结构并自动创建 index.html 页面，以便与 Apache 和 Nginx 无缝协作。下载的所有文件都是原始文件，而不是 Wayback Machine 重写的版本。这样，URL 和链接结构就与以前相同了。

希望这能帮助那些多年前遇到过同样问题的人。除非有人有更好的答案，否则我会将此标记为已解决。

Question 2

虽然我们一般不会在这个网站上做产品推荐 - 但我建议你看看 J-Spider 项目（http://j-spider.sourceforge.net/）。该产品允许完整下载网站以及进行链接测试、站点地图生成等各种操作。

这是一个非常有用的工具。

Answer

虽然我们一般不会在这个网站上做产品推荐 - 但我建议你看看 J-Spider 项目（http://j-spider.sourceforge.net/）。该产品允许完整下载网站以及进行链接测试、站点地图生成等各种操作。

这是一个非常有用的工具。

从 WayBack Machine 下载网站

答案1

答案2

相关内容