我对多个网站进行了存档,以便保留其中的许多链接文件,特别是一些 PDF。
我使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些.warc
文件中提取文件的好方法。
有人有这方面的经验吗,或者有提取这些单个文件的首选方法吗?
答案1
你可以使用以下方式浏览 WARC网络档案播放器并从浏览器中保存所需的文件。或者,将 WARC 上传到webrecorder.io并在那里浏览/下载。
答案2
我建议尝试一下 warctools https://github.com/internetarchive/warctools它是一个非常容易使用的 python 库。
答案3
ReplayWeb.页面取代了取代 WebArchivePlayer 的 Webrecorder Player。
无需安装应用程序,只需进入页面并浏览文件即可。所有处理都在本地进行。
答案4
我发现7-Zip它本身通常不起作用,但有一个名为 eDecoder 的插件可用于启用 warc 支持。
可以从以下网址免费下载 eDecoder这里。
打开安装了此插件的 warc 后,它的作用与 7-Zip 中的任何其他存档一样,但有几点例外:
- 添加了一个额外的列,显示每个文件的原始 URL。
- 每个文件前面都会添加一个数字,以防止文件名冲突(例如,
index.html
可以重命名为000123 index.html
)。 - 文件夹结构被丢弃,所有文件在主视图中可见,无论它们最初位于哪个文件夹中,并且实际上根本没有文件夹。
虽然它可以免费下载,但它似乎是闭源的,无论是在代码还是许可证方面,因此由于它是一个编译的 DLL,因此仅限于 Windows。