为什么我的 32 核 GCE 实例不断停止以及如何调试它?

为什么我的 32 核 GCE 实例不断停止以及如何调试它?

我正在尝试使用谷歌计算引擎 (GCE) 来运行一些科学/工程软件。我已经使用一个运行时间较长的 8 核非抢占式实例在 GCE 上成功测试了该系统。我现在正在使用一个 32 核抢占式实例进行测试,但发现该实例在相对较短的时间(肯定少于一小时)后停止运行。虽然它是可抢占的,但我从文档中得到的印象是,在一般情况下,它不太可能停止。

我想知道是否有某种方法可以确定实例停止的原因(至少在 Web 界面中我看不到任何类型的日志),获取造成这种情况的原因的建议,以及补救措施或防止这种情况发生的方法的建议。

如果有的话,我正在使用免费积分试用 GCE。默认情况下,您最多只能拥有 24 个核心,但我请求将配额增加到 32 个核心,以便我可以在此实例类型上测试我的系统。

我将尝试使用非抢占式实例运行,看看这是否有任何不同。稍后我将通过编辑更新此问题以报告结果。

答案1

可抢占虚拟机取决于 Google 数据中心的剩余容量。一些地區/區域比其他的更受欢迎(例如 us-central1 比 asia-east1 更受欢迎,并且在较长时期内不太可能出现过剩容量)。

如果您可以为实例使用其他区域/地区,请尝试使用其他区域和地区,并实证检查它们是否有更多可用的可抢占实例。

请记住,抢占式实例仅应用于无状态应用程序,否则您的数据或服务将丢失。

相关内容