复制网站并保留文件和文件夹结构

2024-5-27 • tag-icon

我有一个旧网站，运行在旧版 Oracle Portal 上，我们需要将其转换为平面 HTML 结构。由于服务器损坏，我们无法访问管理界面，即使可以访问，也没有可以与现代软件版本配合使用的导出功能。

抓取网站并将所有页面和图像保存到文件夹中就足够了，但需要保留文件结构；也就是说，如果页面位于http://www.oldserver.com/foo/bar/baz/mypage.html然后需要将其保存到 /foo/bar/baz/mypage.html 以便各种 Javascript 位能够继续运行。

我发现的所有网络爬虫都无法做到这一点；它们都想重命名页面（page01.html、page02.html 等）并破坏文件夹结构。

有没有可以重建网站结构（就像用户访问网站时看到的那样）的爬虫？它不需要重做任何页面内容；一旦重新托管，所有页面都将使用原来的名称，因此链接将继续有效。

答案1

wget -r将以递归方式获取整个网站并将其全部保存在本地的相同结构中。

答案2

尝试 HTTrack 网站复制器：http://www.httrack.com/

（抱歉，没有提供更多详细信息，太晚了/早上很早）

答案1

答案2

相关内容