我想下载http://www.example.com/foobar
从那里链接的每个 HTML 页面,其中 URL 以 开头http://www.example.com/foobar
。我还想下载链接的每个非 HTML 资产,无论其路径如何。我试过:
httrack http://www.example.com/foobar -mime:text/html +http://www.example.com/foobar*
并补充道:
+http://www.example.com/foobar +http://www.example.com/foobar/*
但这导致根本没有下载任何页面。
答案1
我仍然不知道如何使用 httrack 来做到这一点(虽然我真的很想了解 httrack 过滤器的工作原理,但显然这不会发生,每个人都只是重复同样无用的手册页),但我能够使用 wget 解决我的问题,尽管没有按照要求解决。看,我实际上知道资产所在的位置,所以我能够这样做:
wget -rkpEI foobar/,assetpath1/,assetpath2/ https://www.example.com/foobar
这或多或少是有效的。公平地说,我后来需要循环每个文件并逐个重新下载它们——下载单个文件时-k
的选项使每个链接都成为绝对 URL,这对以后的工作非常有帮助。wget
sed