GCP Cloud SQL postgres 在维护后处于不良状态

GCP Cloud SQL postgres 在维护后处于不良状态

我们的 HA 管理的 postgres 云 sql 实例似乎进行了一次计划维护,从那时起它就处于糟糕的状态。

2018 年 1 月 7 日,凌晨 2:08:21 更新发生未知错误。

故障转移实例无法“通过故障转移”工作,现在甚至不存在了,我们无法重新启动或执行任何其他操作,此生产数据库完全不可用

2018/01/08 09:41:24 无法连接到“ourprojectid:us-central1:实例名称”:googleapi:错误 409:实例或操作不处于适当状态来处理请求。,invalidState

我们还尝试按照发布在类似问题中的建议,通过直接发送电子邮件的方式联系支持人员。

https://stackoverflow.com/questions/42719547/cloud-sql-instances-are-not-starting-or-restarting-its-stuck

我们开始考虑创建一个新实例并从备份中恢复,但我希望 HA 管理实例具有更强的弹性,并且根据计划维护,这将持续一天以上。

提前致谢

答案1

首先,请不要在社区主题中分享您的 GCP 项目 ID 或 CloudSQL 实例信息。请联系GCP 支持工程师直接如果您需要对 CloudSQL 实例进行此类审查

正如错误所暗示的,要么是操作卡住了,要么是 CloudSQL 实例卡在了错误上。导致此错误的原因有很多,其中包括:

  1. 在实例被删除后一周内尝试重新使用实例名称. 类似问题报告于此处

  2. 如果操作确实卡住了。这将需要 GCP 支持工程师停止卡住的操作。

  3. 实例可能因任何原因(包括其他内部或潜在问题)变得不健康或不可用。GCP 工程师也将能够帮助解决这种情况。

通常,重新创建 CloudSQL 实例并恢复备份(正如您正确做的那样)将有助于避免处理该问题。

答案2

自从这个问题被问到已经很长时间了,我会在这个帖子中更新更多细节。

  1. 项目和实例 ID 最初被替换为任意字符串以避免暴露真实信息,但还是感谢您的建议。
  2. 该帐户仅有社区支持,不包括直接访问支持/工程师,并且 GCP 文档提供和推荐的唯一支持是堆栈溢出和服务器故障。
  3. 我们最终通过直接消息从工程团队那里得到了答复,确认了一个已知错误,当​​时该服务仍处于测试阶段,不在标准 SLA 的覆盖范围内。他们修复了该错误,我们无需采取进一步措施。

谢谢

相关内容