Amazon RDS 实例停止响应

Amazon RDS 实例停止响应

我们在生产环境中运行大型 RDS 实例已有一年多,从未出现过停机。最近,由于预算增加且风险加大,我们决定将其转换为多可用区实例,以提高数据的可靠性和冗余性。

从那时起(大约两周前),我们的实例发生了两次严重故障,需要重新启动。“最近的数据库事件”中没有任何内容。Cloudwatch 中记录了两次与故障同时发生的数据库连接峰值。

这是怎么回事?

答案1

问题似乎与 AWS 有关,而不是与实例有关。当此消息发布时,它被证实是 AWS 欧洲迄今为止最严重的中断之一。

RDS 多可用区存在许多问题,这意味着自动故障转移仍有可能无法发生,导致您没有服务器。实施者应该意识到这一点,并在其应用程序中构建足够的冗余,以缓解多个可用区中的问题。

相关内容