Google App Engine 定期发生故障

Google App Engine 定期发生故障

我们最近注意到,我们的 Google App Engine 项目连续三天每 25 小时 10 分钟(1510 分钟)就会出现一次故障,而且没有明显原因。

在问题发生期间,我们看到请求在很长的请求持续时间(10 秒)后失败,代码为 499(客户端关闭请求)。请求通常需要几百毫秒,偶尔需要 2-3 秒,但绝不会接近 10 秒。当时我们没有看到流量有任何上升,也没有运行任何后台作业。在问题开始之前,CPU 和内存都很好,然后 CPU 有所增加(例如从 10% 左右增加到 60%),甚至触发了从 3 个主机到 5 个主机的临时扩展。

该项目是一个 Python 快速 API图像部署到弹性环境,最少 3 个,最多 12 个主机。

日志中的失败示例

这些故障发生的时间很有意思,因为它们几乎恰好相隔 25 小时 10 分钟。我们在这些天的不同时间进行了几次部署,与服务器正常运行时间也没有关系。

以下时间戳以 UTC 为单位:

2021-11-17 17:43
2021-11-18 18:53
2021-11-19 20:03

有没有人见过在 Google App Engine 或者可能与提到的 Fast API 图像上发生类​​似的事情?

答案1

但是,那499 HTTP 状态代码表示客户端关闭了请求。可能的原因是您的客户端在您指定的时间段内断开了连接。

我建议您通过检查 Cloud Logging 日志,特别是健康检查,您还可以使用 App Engine 仪表板查看实例是否因 CPU 或 RAM 使用率过高而受到限制。但这个问题似乎出在客户端,因此可能值得检查您发出请求的位置的状态。

我也分享本文档关于解决 App Engine Flexible 服务错误,我相信它可能对您有用。

相关内容