我们的团队正在尝试了解是否应该使用托管 AWS API 网关而不是 IDC Kong 作为 API 网关。
因此,我正在寻找一些有关 AWS 托管服务(特别是 AWS API 网关)的具体统计数据。
但从 AWS 官方网站上很难找到每年区域总停机时间的统计数据。
我查看了 SLA 协议(https://aws.amazon.com/api-gateway/sla/) 似乎可以保证高达 95% 的可用性 - 这完全是不可能的。每年 18 天,我们可能就歇业了。而且他们只补偿使用的信用额度 - 而不是因停机而造成的全部损失。
还有服务健康仪表板显示当前健康状况和状态历史记录。但我需要比这更好的东西 - 2019 年、2018 年、2017 年各地区总停机时间(分钟)的饼图。
我发现这个统计数据“在 AWS 上对您的 Microsoft 应用程序进行现代化改造”,但它仍然不够具体 - 它结合了所有服务和地区。
为什么这些统计数据这么难找?我相信这是选择服务时最重要的指标之一?
提前谢谢了
答案1
那SLA 文档说的 SLA 是 99.95%,而不是你说的 95%。
AWS 将采取商业上合理的努力,确保 API Gateway 的月度正常运行时间百分比为至少 99.95%对于每个 AWS 区域。
95% 仅在表中提及,显示如果他们违反 SLA,您将获得多少信用。
无论如何,设备都会出问题,服务也会下降。但不会同时发生。
您的 API 网关可能会发生故障(自行发生或由于您的操作),但可能不会同时发生所有 API 网关故障。可用区可能会发生故障,但可能不会同时发生所有可用区故障。是的,有时甚至某些区域发生故障,但其他区域却正常。
如果你的服务极其关键,无法承受中断通过地理冗余实现高可用性。这意味着在不同的地区部署相同的 API,也许一个地区在美国,一个地区在欧盟,一个地区在亚太地区。
AWS 提供了很多工具来实现这一点,从通过 CloudFormation 模板进行统一部署,到通过 DynamoDB 全局表进行部署,再到使用 Route53 进行基于延迟的路由,等等。
如果您的部署是 HA,则单实例/API GW 正常运行时间/等并不重要。
希望有帮助:)