镜像网站目录

镜像网站目录

我想下载经典“开始第四次”这本书似乎已经绝版,但可以买到这里免费。也就是说,我想使用 site-ripper 下载 forth.com/starting-forth/子目录中(并且只下载该目录中)所有与索引链接的 html 页面,以及全部这些页面中使用的图像,无论其位于何处。

我尝试使用 httrack 来实现,但似乎不太好复杂的,因为我必须手动添加的所有子目录forth.com/starting-forth/

我该怎么做?Windows 或 Linux 解决方案都很好,但我更喜欢后者。

答案1

您可以使用wget

wget -r -np -k https://www.forth.com/starting-forth/
  • -r递归
  • -np不要点击父目录的链接
  • -k使下载的 HTML 或 CSS 中的链接指向本地文件

(从这个答案

(编辑)最后的命令:

wget -r -np -k -p --domains forth.com,netdna-ssl.com -H https://www.forth.com/starting-forth/
  • -p导致 wget 下载呈现页面所需的所有文件(图像、声音、样式表)
  • --domains用于设置下载内容的域。这通常只是网站和 CDN。
  • -H允许从其他主机(您放入的主机--domain)下载内容。

find . -name "*.html" -type f -exec sed -i 's/\?ver=/_ver=/g' {} +

这将搜索所有 html 文件并用 替换对 的引用,?ver因为_ver当 wget 下载任何 url 包含类似的文件时,jquery.colorbox.js?ver=1.1.0它需要用 替换?才能_将其保存为文件。

相关内容