具有特定模式的 Httrack 过滤链接

具有特定模式的 Httrack 过滤链接

我正在尝试使用 httrack 从 archive.org 下载整个网络档案。想法是只下载档案链接(尽可能多),但只下载真正来自档案而不是当前网站的链接。换句话说,我只想下载包含此模式的链接:

/web/[archive_timestamp]/[website]/*

以下是一个例子

以下是档案链接:http://web.archive.org/web/20011209181356/http://www.emag.ro:80/

为了下载我需要的链接,我使用以下命令:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*

这意味着,过滤所有链接(禁用所有链接),只启用包含以下内容的链接:/网络/20011209181356/http://www.emag.ro/

该命令仅下载主页,所以我想我做错了什么。

如果有人知道如何完成这个(除了构建我自己的抓取工具 - 为了节省时间我试图避免这样做),即使使用我可以从命令行使用并且也可以在 Windows 上运行的其他工具。

答案1

您已经非常接近了 - 您只需要将域名添加到您的扫描规则中,如下所示:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/*

或者,要获取该域的所有存档版本,您可以使用:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/*

但随后您将需要使用这些命令行选项(或在“仅限专家”下的 GUI 中设置这些选项)来启用整个域的遍历

... 可以在目录结构中上下移动
d...但保持在同一个主域上

请参见下面的截图。这是您想要实现的吗?

下载的页面

相关内容