ceph 中 mon osd down out 的推荐值

ceph 中 mon osd down out 的推荐值

“mon osd down out” 有推荐值吗?集群有 15 个节点和 300 个 osd。它正在运行 ceph Jewl。

Jewel 中的默认值为 300 秒。我想知道,更改默认值有什么好处或坏处吗?

答案1

默认值已增加到 600 秒,只是我不知道从哪个版本开始。仅当您遇到当前配置问题时,更改该值才有意义。除了计划维护之外,服务器还可能发生许多事情,在计划维护中,您(应该)设置标志noout以防止在服务器(或单个 OSD)关闭时重新平衡。例如,OSD 可能因任何原因而失败并被标记为down。然后使用您当前的配置,它有 5 分钟的时间重新启动,否则它也将被标记为,out这将触发从该 OSD 重新映射 PG,它将被耗尽。现在,在 5 分钟内恢复单个服务听起来并不那么糟糕,但如果您需要恢复具有多个 OSD 的整个服务器,则可能需要更长的时间。但是如果mon_osd_down_out_interval值较低,这可能会导致“OSD 抖动”,从而给集群带来更多麻烦。我认为这是将默认值增加到 10 分钟的主要原因。

另一方面,如果您的集群足够大,并且 Crush 规则和副本配置合理,那么您应该能够丢失一些 OSD,而客户端不会注意到。这基本上取决于集群管理员对可能的情况的感受,因为它还取决于实际硬件。我有一个客户的服务器需要 15 分钟或更长时间才能重新启动。现在想象一下内核崩溃或触发重新启动的某些事情,服务器不会在间隔内恢复,从而导致大规模重新映射。通过调整 mon_osd_down_out_interval 可以更好地控制这些情况。

相关内容