从网络档案 (.warc) 中提取文件

从网络档案 (.warc) 中提取文件

我对多个网站进行了存档,以便保留其中的许多链接文件,特别是一些 PDF。

我使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些.warc文件中提取文件的好方法。

有人有这方面的经验吗,或者有提取这些单个文件的首选方法吗?

答案1

你可以使用以下方式浏览 WARC网络档案播放器并从浏览器中保存所需的文件。或者,将 WARC 上传到webrecorder.io并在那里浏览/下载。

答案2

我建议尝试一下 warctools https://github.com/internetarchive/warctools它是一个非常容易使用的 python 库。

答案3

ReplayWeb.页面取代了取代 WebArchivePlayer 的 Webrecorder Player。

无需安装应用程序,只需进入页面并浏览文件即可。所有处理都在本地进行。

答案4

我发现7-Zip它本身通常不起作用,但有一个名为 eDecoder 的插件可用于启用 warc 支持。

可以从以下网址免费下载 eDecoder这里

打开安装了此插件的 warc 后,它的作用与 7-Zip 中的任何其他存档一样,但有几点例外:

  • 添加了一个额外的列,显示每个文件的原始 URL。
  • 每个文件前面都会添加一个数字,以防止文件名冲突(例如,index.html可以重命名为000123 index.html)。
  • 文件夹结构被丢弃,所有文件在主视图中可见,无论它们最初位于哪个文件夹中,并且实际上根本没有文件夹。

虽然它可以免费下载,但它似乎是闭源的,无论是在代码还是许可证方面,因此由于它是一个编译的 DLL,因此仅限于 Windows。

相关内容