在 Ceph 集群中,对于相同的总原始卷,例如 5 个节点中每个节点 32To,如何在 16 个 2To 的 ssd 和 8 个 4To 的 ssd 之间进行选择?有什么指导规则吗?

在 Ceph 集群中,对于相同的总原始卷,例如 5 个节点中每个节点 32To,如何在 16 个 2To 的 ssd 和 8 个 4To 的 ssd 之间进行选择?有什么指导规则吗?

我正在为我的公司(VM 等文件基础设施)设计一个用于混合 cephFS 和 rbd 的 ceph 集群。

在我的设置中,我需要 32To 个节点的原始存储。我从 5 个节点开始。

卖家的报价建议我按节点在 16 个 2 Teras 的 SSD 或 8 个 4 Teras 的 SSD 之间进行选择。

我的意思是在这些情况下对 ceph 管理的 IOPS 有何影响,重建延迟等。可能的问题与 CEPH 高度相关,而不是一般性问题。

我遵循了许多指南,从多个方面来做出选择,包括 ceph 文档和书籍。但不确定是否真的有这个问题的答案。我发现的唯一线索是“越大越好”之类的东西……

我需要遵循哪种方法来在这两个选项之间进行选择?

如果需要,这里有一些详细信息:专用于 cephs Vlans 的网络网卡速度为 25Gb,冗余等,我考虑将至少 4Gb Ram 乘以 OSD 上的 1 tera,因此 128 个节点就很大了。SSD 磁盘适合企业使用,并且读取密集。

感谢您的帮助

干杯

兹特沃兹

答案1

如果这两个选项是您唯一的选择,并且两种 SSD 型号都是企业级 SSD,那么您应该可以接受这两种选项。需要考虑的要点是可扩展性、性能和故障域。您拥有的 OSD 越多,对磁盘故障的恢复能力就越强,因为在恢复期间需要传输的数据越少。您还可以通过拥有更多磁盘来提高并行性,从而提高性能。如果您不使用所有插槽,并且每个节点只有 8 个磁盘而不是 16 个,那么您可以在容量达到极限时稍后添加更多磁盘。不要让您的集群变得满满的,否则将很难摆脱。还要规划您的容量以承受整个主机的丢失,这样即使 OSD 主机发生故障,您的 PG 也可以恢复。当然,主机故障也不应该填满您的集群。

相关内容