我有一个旧网站,运行在旧版 Oracle Portal 上,我们需要将其转换为平面 HTML 结构。由于服务器损坏,我们无法访问管理界面,即使可以访问,也没有可以与现代软件版本配合使用的导出功能。
抓取网站并将所有页面和图像保存到文件夹中就足够了,但需要保留文件结构;也就是说,如果页面位于http://www.oldserver.com/foo/bar/baz/mypage.html然后需要将其保存到 /foo/bar/baz/mypage.html 以便各种 Javascript 位能够继续运行。
我发现的所有网络爬虫都无法做到这一点;它们都想重命名页面(page01.html、page02.html 等)并破坏文件夹结构。
有没有可以重建网站结构(就像用户访问网站时看到的那样)的爬虫?它不需要重做任何页面内容;一旦重新托管,所有页面都将使用原来的名称,因此链接将继续有效。
答案1
wget -r
将以递归方式获取整个网站并将其全部保存在本地的相同结构中。
答案2
尝试 HTTrack 网站复制器:http://www.httrack.com/
(抱歉,没有提供更多详细信息,太晚了/早上很早)