我正在尝试在 Rocky9 上使用 ceph-ansible 部署 Ceph Quincy。我遇到了一些问题,但我不知道在哪里查找原因。
PS:我在相同硬件上使用 ceph-ansible 对太平洋版本在 Rocky8 上进行了相同的部署,并且运行良好。
我有 03 个控制器节点:mon、mgr、mdss 和 rgws。还有 27 个 osd 节点:每个节点有 04 个 nvme 磁盘 (osd)。我使用的是带有巨型帧的 10Gb 网络。
部署开始时没有问题,03 个监视器正确创建,然后创建 03 个管理器,之后准备并格式化 OSD,到目前为止一切都运行良好,但是当启动“等待所有 OSD 启动”任务时,这意味着启动所有 OSD 节点中的所有 OSD 容器,事情变糟了,监视器失去法定人数,ceph -s 需要很长时间才能响应,并且并非所有 OSD 都被激活,最终部署失败。
cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN] mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)
我的 2 个控制器节点中的监视容器的 CPU 利用率保持在 100%。
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
068e4e55f299 ceph-mon-controllera 99.91% 58.12MiB / 376.1GiB 0.02% 0B / 0B 122MB / 85.3MB 28 <--------
87730f89420d ceph-mgr-controllera 0.32% 408.2MiB / 376.1GiB 0.11% 0B / 0B 181MB / 0B 35
这可能是资源问题吗?监视器容器没有足够的资源(CPU、RAM 等)来处理正在启动的所有 OSD?如果是,我该如何找到这个问题?我该如何纠正它?
提前致谢。
问候。