WET
我对2018 年 4 月最新抓取的存档感兴趣(http://commoncrawl.org/2018/05/april-2018-crawl-archive-now-available/)
是否可以WET
一次性下载整个档案?我看到网站上提供了单个路径,但我想避免迭代每个单个文件。这可能吗?我是否必须迭代每个单个文件?
免责声明:我是一名noob
命令行专家。任何详细的帮助都非常感谢!
谢谢!
答案1
是否可以一次性下载完整的 WET 档案?
除非他们以一系列gzip
文件以外的格式提供它,否则这似乎不太可能。
多个档案
顺便说一句,当您下载大型数据集时,将内容拆分成较小的存档是非常可取的。本质上,它允许以最少的麻烦中断连接(您只丢失了一个较小的文件)。同样,假设一个或多个文件在传输过程中损坏,您只需要重新下载这些文件 - 而且它们可能比重新下载部分下载、损坏的、庞大的单个存档麻烦得多。