如何使用 httrack 下载网站的部分内容(包括资产)?

如何使用 httrack 下载网站的部分内容(包括资产)?

我想下载http://www.example.com/foobar从那里链接的每个 HTML 页面,其中 URL 以 开头http://www.example.com/foobar。我还想下载链接的每个非 HTML 资产,无论其路径如何。我试过:

httrack http://www.example.com/foobar -mime:text/html +http://www.example.com/foobar*

并补充道:

+http://www.example.com/foobar +http://www.example.com/foobar/*

但这导致根本没有下载任何页面。

答案1

我仍然不知道如何使用 httrack 来做到这一点(虽然我真的很想了解 httrack 过滤器的工作原理,但显然这不会发生,每个人都只是重复同样无用的手册页),但我能够使用 wget 解决我的问题,尽管没有按照要求解决。看,我实际上知道资产所在的位置,所以我能够这样做:

wget -rkpEI foobar/,assetpath1/,assetpath2/ https://www.example.com/foobar

这或多或少是有效的。公平地说,我后来需要循环每个文件并逐个重新下载它们——下载单个文件时-k的选项使每个链接都成为绝对 URL,这对以后的工作非常有帮助。wgetsed

相关内容