我安装并运行了 Heritrix Web Crawler。它将数据存储在 .arc.gz 文件中

我安装并运行了 Heritrix Web Crawler。它将数据存储在 .arc.gz 文件中

如果您使用过 Heritrix Web Crawler,我将非常感谢您的帮助。

3个问题:

  1. arc 文件可能包含许多页面的源代码。我如何确定哪个是哪个?
  2. 我该如何解释 .arc.gz 文件?我在 VIM 中打开它们,发现里面有 HTML 代码 + 垃圾(由于有垃圾,我甚至无法使用 Python SGMLParser 进行解析)。
  3. 建议压缩吗?(.gz)

基本上,我不知道 .ARC 文件是什么以及我能用它们做什么。我习惯使用 URLLIB2 手动下载和解析 HTML。

答案1

这是下载 ArcReader 的链接及其说明:http://crawler.archive.org/articles/developer_manual/arcs.html

我谷歌搜索读取 arc 文件这是第一个链接。

首先,您需要解压文件(它们是经过 gzip 压缩的,因此扩展名为 .gz)。然后,您就可以读取 ARC 文件了。

相关内容