我在 AWS 上运行 3 个 Swarm 节点、一个内部部署 2 核管理器节点和两个较小的工作节点(2 核)。
今天我遇到了 DNS 问题,经理与员工失去了联系。
Manager 恢复后,尝试自行运行所有服务,Docker 服务运行几秒钟后,整个节点内存不足并冻结。Worker 也发生了同样的情况。
我实际上无法恢复工人,因为他们在几秒钟内就冻结了。
在过去的几个月里,这种情况发生过几次,但这是我第一次无法完全恢复。
我已经设置了 CPU 和内存限制,现在我设置了节点约束,因此在发生完全故障的情况下大多数服务都不会产生。
如何预防?有没有更好的措施?
抱歉,帖子太长了,但很可能稍后会有人问这些问题。