如何防止 Swarm 节点冻结？

2024-6-1 • tag-icon

我在 AWS 上运行 3 个 Swarm 节点、一个内部部署 2 核管理器节点和两个较小的工作节点（2 核）。

今天我遇到了 DNS 问题，经理与员工失去了联系。

Manager 恢复后，尝试自行运行所有服务，Docker 服务运行几秒钟后，整个节点内存不足并冻结。Worker 也发生了同样的情况。

我实际上无法恢复工人，因为他们在几秒钟内就冻结了。

在过去的几个月里，这种情况发生过几次，但这是我第一次无法完全恢复。

我已经设置了 CPU 和内存限制，现在我设置了节点约束，因此在发生完全故障的情况下大多数服务都不会产生。

如何预防？有没有更好的措施？

抱歉，帖子太长了，但很可能稍后会有人问这些问题。

相关内容