我正在尝试使用 httrack 从 archive.org 下载整个网络档案。想法是只下载档案链接(尽可能多),但只下载真正来自档案而不是当前网站的链接。换句话说,我只想下载包含此模式的链接:
/web/[archive_timestamp]/[website]/*
以下是一个例子
以下是档案链接:http://web.archive.org/web/20011209181356/http://www.emag.ro:80/
为了下载我需要的链接,我使用以下命令:
httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*
这意味着,过滤所有链接(禁用所有链接),只启用包含以下内容的链接:/网络/20011209181356/http://www.emag.ro/
该命令仅下载主页,所以我想我做错了什么。
如果有人知道如何完成这个(除了构建我自己的抓取工具 - 为了节省时间我试图避免这样做),即使使用我可以从命令行使用并且也可以在 Windows 上运行的其他工具。
答案1
您已经非常接近了 - 您只需要将域名添加到您的扫描规则中,如下所示:
httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/*
或者,要获取该域的所有存档版本,您可以使用:
httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/*
但随后您将需要使用这些命令行选项(或在“仅限专家”下的 GUI 中设置这些选项)来启用整个域的遍历
乙... 可以在目录结构中上下移动
d...但保持在同一个主域上
请参见下面的截图。这是您想要实现的吗?