如何从 Common Crawl 下载完整的 WET 档案?

如何从 Common Crawl 下载完整的 WET 档案?

WET我对2018 年 4 月最新抓取的存档感兴趣(http://commoncrawl.org/2018/05/april-2018-crawl-archive-now-available/

是否可以WET一次性下载整个档案?我看到网站上提供了单个路径,但我想避免迭代每个单个文件。这可能吗?我是否必须迭代每个单个文件?

免责声明:我是一名noob命令行专家。任何详细的帮助都非常感谢!

谢谢!

答案1

是否可以一次性下载完整的 WET 档案?

除非他们以一系列gzip文件以外的格式提供它,否则这似乎不太可能。

多个档案

顺便说一句,当您下载大型数据集时,将内容拆分成较小的存档是非常可取的。本质上,它允许以最少的麻烦中断连接(您只丢失了一个较小的文件)。同样,假设一个或多个文件在传输过程中损坏,您只需要重新下载这些文件 - 而且它们可能比重新下载部分下载、损坏的、庞大的单个存档麻烦得多。

相关内容