在 Rocky 9 上使用 ceph-ansible 7 部署 Ceph Quincy 时出错

在 Rocky 9 上使用 ceph-ansible 7 部署 Ceph Quincy 时出错

我正在尝试在 Rocky9 上使用 ceph-ansible 部署 Ceph Quincy。我遇到了一些问题,但我不知道在哪里查找原因。

PS:我在相同硬件上使用 ceph-ansible 对太平洋版本在 Rocky8 上进行了相同的部署,并且运行良好。

我有 03 个控制器节点:mon、mgr、mdss 和 rgws。还有 27 个 osd 节点:每个节点有 04 个 nvme 磁盘 (osd)。我使用的是带有巨型帧的 10Gb 网络。

部署开始时没有问题,03 个监视器正确创建,然后创建 03 个管理器,之后准备并格式化 OSD,到目前为止一切都运行良好,但是当启动“等待所有 OSD 启动”任务时,这意味着启动所有 OSD 节点中的所有 OSD 容器,事情变糟了,监视器失去法定人数,ceph -s 需要很长时间才能响应,并且并非所有 OSD 都被激活,最终部署失败。

cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc 
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN]     mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)

我的 2 个控制器节点中的监视容器的 CPU 利用率保持在 100%。

CONTAINER ID   NAME                   CPU %     MEM USAGE / LIMIT     MEM %     NET I/O   BLOCK I/O        PIDS
068e4e55f299   ceph-mon-controllera   99.91%    58.12MiB / 376.1GiB   0.02%     0B / 0B   122MB / 85.3MB   28  <--------
87730f89420d   ceph-mgr-controllera   0.32%     408.2MiB / 376.1GiB   0.11%     0B / 0B   181MB / 0B       35

这可能是资源问题吗?监视器容器没有足够的资源(CPU、RAM 等)来处理正在启动的所有 OSD?如果是,我该如何找到这个问题?我该如何纠正它?

提前致谢。

问候。

相关内容