如果您使用过 Heritrix Web Crawler,我将非常感谢您的帮助。
3个问题:
- arc 文件可能包含许多页面的源代码。我如何确定哪个是哪个?
- 我该如何解释 .arc.gz 文件?我在 VIM 中打开它们,发现里面有 HTML 代码 + 垃圾(由于有垃圾,我甚至无法使用 Python SGMLParser 进行解析)。
- 建议压缩吗?(.gz)
基本上,我不知道 .ARC 文件是什么以及我能用它们做什么。我习惯使用 URLLIB2 手动下载和解析 HTML。
答案1
这是下载 ArcReader 的链接及其说明:http://crawler.archive.org/articles/developer_manual/arcs.html。
我谷歌搜索读取 arc 文件这是第一个链接。
首先,您需要解压文件(它们是经过 gzip 压缩的,因此扩展名为 .gz)。然后,您就可以读取 ARC 文件了。