分布式、并行、高吞吐量容错文件系统

分布式、并行、高吞吐量容错文件系统

我正在寻找容错且易于维护的 DFS(分布式文件系统)。我将拥有大量(100M+)小文件(从 1K 到 500K)。文件将位于一些目录中,这些目录将构建数据的逻辑结构。

我的平均读取负载为 100Mb/s,写入负载为 100Mb/s。

我希望获得一些关于哪种文件系统最适合给定要求的意见。

有什么想法吗?

答案1

头孢非常有趣,具有一些巧妙的功能。特别酷的是复制功能(决定将数据发送到哪个 OSD)非常灵活,可以根据您的可靠性需求进行调整。

一般来说,有 3 种类型的守护进程:

  • OSD,用于存储对象(基本上是原始字节流)
  • MDS(元数据服务器),提供文件系统语义
    • MDS 还可以进行自适应负载平衡 - 如果某些元数据确实被大量访问,它会传播到更多 MDS 来分担负载。
  • 监视器,维护集群状态和配置

客户端目前已在 Linux 内核上游运行了一段时间,而服务器部分则完全在用户空间中运行。

至于性能,Ceph 的原始博士论文指出,在 24 个 OSD 的情况下,瓶颈是网络交换机的吞吐量,并且性能与节点数量成线性关系。(请参阅 ceph 网站上的出版物部分)。那是五年前的事了,从那时起,我们进行了大量调整。

在可靠性方面,该项目由 Dreamhost 的创始人启动,并正在其基础设施中推广。

答案2

GlusterFS、Lustre 等...参见http://en.wikipedia.org/wiki/List_of_file_systems获取列表。

还取决于你想做什么。企业中的工作站可以访问它吗?可以访问互联网吗?……?

相关内容