如何防止 Swarm 节点冻结?

如何防止 Swarm 节点冻结?

我在 AWS 上运行 3 个 Swarm 节点、一个内部部署 2 核管理器节点和两个较小的工作节点(2 核)。

今天我遇到了 DNS 问题,经理与员工失去了联系。

Manager 恢复后,尝试自行运行所有服务,Docker 服务运行几秒钟后,整个节点内存不足并冻结。Worker 也发生了同样的情况。

我实际上无法恢复工人,因为他们在几秒钟内就冻结了。

在过去的几个月里,这种情况发生过几次,但这是我第一次无法完全恢复。

我已经设置了 CPU 和内存限制,现在我设置了节点约束,因此在发生完全故障的情况下大多数服务都不会产生。

如何预防?有没有更好的措施?

抱歉,帖子太长了,但很可能稍后会有人问这些问题。

相关内容