我们的 HA 管理的 postgres 云 sql 实例似乎进行了一次计划维护,从那时起它就处于糟糕的状态。
2018 年 1 月 7 日,凌晨 2:08:21 更新发生未知错误。
故障转移实例无法“通过故障转移”工作,现在甚至不存在了,我们无法重新启动或执行任何其他操作,此生产数据库完全不可用
2018/01/08 09:41:24 无法连接到“ourprojectid:us-central1:实例名称”:googleapi:错误 409:实例或操作不处于适当状态来处理请求。,invalidState
我们还尝试按照发布在类似问题中的建议,通过直接发送电子邮件的方式联系支持人员。
我们开始考虑创建一个新实例并从备份中恢复,但我希望 HA 管理实例具有更强的弹性,并且根据计划维护,这将持续一天以上。
提前致谢
答案1
首先,请不要在社区主题中分享您的 GCP 项目 ID 或 CloudSQL 实例信息。请联系GCP 支持工程师直接如果您需要对 CloudSQL 实例进行此类审查
正如错误所暗示的,要么是操作卡住了,要么是 CloudSQL 实例卡在了错误上。导致此错误的原因有很多,其中包括:
如果操作确实卡住了。这将需要 GCP 支持工程师停止卡住的操作。
实例可能因任何原因(包括其他内部或潜在问题)变得不健康或不可用。GCP 工程师也将能够帮助解决这种情况。
通常,重新创建 CloudSQL 实例并恢复备份(正如您正确做的那样)将有助于避免处理该问题。
答案2
自从这个问题被问到已经很长时间了,我会在这个帖子中更新更多细节。
- 项目和实例 ID 最初被替换为任意字符串以避免暴露真实信息,但还是感谢您的建议。
- 该帐户仅有社区支持,不包括直接访问支持/工程师,并且 GCP 文档提供和推荐的唯一支持是堆栈溢出和服务器故障。
- 我们最终通过直接消息从工程团队那里得到了答复,确认了一个已知错误,当时该服务仍处于测试阶段,不在标准 SLA 的覆盖范围内。他们修复了该错误,我们无需采取进一步措施。
谢谢