下载一个 html 页面,其中包含所有需要的图形和链接的 pdf/zip 文件

下载一个 html 页面,其中包含所有需要的图形和链接的 pdf/zip 文件

我想从 URL 下载一个网站,以便在本地查看它,更准确地说:

  • 下载一张单曲html 页面(没有其他链接的 html 页面)以及显示它所需的一切(css、图像等)
  • pdf还下载所有类型为和 的直接链接文件zip
  • 并更正所有指向它们的链接,以便这些链接在本地正常工作。
  • 其他链接(例如 html 文件)应保持不变。

我对所有基于 Linux 的工具持开放态度(macports支持会很好),wget到目前为止,使用对我来说并不奏效。

编辑: wget -E -H -k -K -p接近我想要的,但如何包含 pdf 和 zip 文件? (来源: 堆栈溢出

答案1

HTTrack主页)可以镜像站点以供离线查看,并提供关于下载什么和不下载什么的相当细粒度的选项。它还能够恢复中断的下载。

答案2

尝试:

wget -r -k -l 1 --mirror yourSITE

-r与的原因--mirror

-r: cuusedwget递归地起作用。

--mirror: 原因是你告诉 wget 的行为,例如镜像站点。有时它需要。

-k : 单一文档

-l 1:级别1,递归一级。

答案3

你尝试过wget -rk -l 1 <sitename>或者类似吗?这应该在将链接转换为相对路径的同时递归地获取内容。最终结果可能是比您想要的更多的 .html 文件,但是您可以删除除 index.html 之外的所有文件,您应该能够正常浏览它。

相关内容