从网络服务器向公众分发 TB 文件

从网络服务器向公众分发 TB 文件

我们需要建立一个网站,将两三个大型文件公开,每个文件大小为 1 或 2 TB。虽然这些文件是公开的,但实际上我预计只有相对较少的科学家会想要下载它们。实现这一点的最佳方式是什么?

我与一家网络托管服务提供商(rackspace)进行了简短交谈,他们建议采用混合解决方案。

  • 入门级托管服务器(我们预计网站的流量相当低,但我们确实需要安装一些自定义 CGI 软件)。
  • 一些与 Limelight Networks 挂钩的云存储。这将托管大型文件,供通过 FTP 下载。

我觉得这听起来不错,但我对服务器管理了解甚少。这有意义吗?

提前致谢,马克

答案1

一或两 TB 的文件?

哇……嗯,是的,如果它们是公共文件,使用内容交付网络来分发它们是有意义的。您还可以考虑,如果其他组织愿意使用它并且它是有用的信息,将其托管为 torrent,因为这对于将大型文件传播到多个来源并充当一种内置的反损坏检查来说是最佳选择。如果有人下载了一兆字节的数据并让 MD5 显示它已损坏,那就太糟糕了。

答案2

有些人有提供与您要求的类似服务的经验。

如果您在美国宇航局中心工作,则需要获得豁免才能使用点对点;这适用于服务器和用户,因此仅通过 p2p 提供数据可能会使一些科学家无法访问数据(除非他们愿意通过。

就我个人而言,当人们要求提供大量数据(图像和数据立方体,大多数文件小于 100MB)时,如果数据小于几 GB,我会使用一些 CGI 来动态生成 tarball/zip 档案。我们原本打算编写自己的下载管理器,但我正在考虑更通用的下载管理器,并编写一个袋装用于为未填充的袋子提供服务的接口,以及用于填充袋子并验证袋子的客户端。

对于您所说的数据大小,我们会让人给我们邮寄硬盘,然后我们对其进行格式化,然后再寄回。很可能,他们在下载时需要磁盘空间来存储它,而且这种情况一年只发生几次,所以对我们来说,这比支付更多带宽更有效。(我们昨天刚刚收到一批 7 个 2TB 硬盘,是为想要获取我们在此处存档的两台仪器的完整数据的人准备的)。

...并且我也尝试确保不会生成大于 2GB 的文件...它们变得太笨重,并且您会开始遇到旧操作系统和文件系统的问题。

...

如果有人对限制 Apache 中给定 IP 的带宽和连接有任何建议,我将不胜感激——每隔几天,我就会遇到来自中国的人打开所有可用的连接,从我们的系统中吸取数据。我见过一次超过 800 个。(防火墙由另一个部门管理,他们会阻止 IP,但不会限制)

...

您可能还想询问地球与空间科学信息学邮件列表——即使它不是您的领域,我们都对数据分发问题感兴趣。

答案3

通过 HTTP 传输太字节文件(1024 吉字节)?不要这么做。

我建议检查一下这些文件的预期消费者使用哪些平台(操作系统)。如果是 Windows,那么免费7-Zip可以压缩文件并将生成的输出文件拆分为多个较小的文件(例如 3.9 GiB 大小)。在 Unix 上,GNU TAR 可以为您做同样的事情;或者您可以再次使用 7-Zip,但大多数 Unix 用户可能没有安装它。

然后,这些较小的文件可以传输到目的地并解压缩。如果文件的一部分在传输过程中损坏,则只有该部分需要重新下载单个较小的文件。如果文件下载需要几天时间才能完成,那么用户可以在较小的文件下载完成后关闭计算机,稍后再继续下载剩余文件。最后,使用压缩存档可以为您提供内置错误检查。

缺点是,在压缩和解压缩过程中,用户硬盘上的可用空间约为文件大小的 2 倍。

您可以使用普通的 FTP 或 HTTP 来传输较小的文件。我会选择 FTP,但技术水平较低的用户可能没有 FTP 客户端,因此会更喜欢 HTTP。编写 FAQ 或常见问题列表可能是个好主意——较旧的文件系统和 FTP 程序通常无法处理大于 4 千兆字节(32 位标头)的文件。

编辑:+1 赞同 Joe H 的建议,即通过 Sneakernet 发送文件。通过邮件/快递发送硬盘驱动器比通过互联网传输更快、更便宜,除非所有参与者都大的互联网管道。

答案4

需要考虑的一个软因素是如何限制下载。我建议您有一个注册页面,为他们提供下载所需的密钥,并且该密钥有效期为 x 天。您可以让他们在第二次注册后再次下载,但这有望防止人们将其用作测试下载文件或类似的东西。

如果同时有两个密钥,您可以有一个队列,这将控制同时下载的数量。

我记得美国国家航空航天局 (NASA) 的网站不久前使用过类似的东西来展示大型蓝色大理石图像(也许现在仍然在用)。

另外,如果您不使用 torret 解决方案,我会将文件拆分成 1GB 大小的块。我认为这就是 Akami 为 Microsoft 的大型下载所做的工作。他们会自动执行此操作,但由于他们是科学家,您可能可以获得有关如何合并它们的说明。

相关内容