Amazon EC2 EBS 存储可靠性

Amazon EC2 EBS 存储可靠性

我们在 Amazon EC2 上运行了大量 Ubuntu 实例,在过去两个月中,我们发现其中一些实例变得无响应且无法访问。没有 SSH、没有 ping 响应等。最终,作为最后的手段,重新启动这些实例有所帮助。

所有受影响的实例都是基于 EBS 的。日志中没有关于故障原因的迹象。我们一直怀疑这些实例可能以某种方式断开了与 EBS 卷的连接。

我的问题是:

  1. 这有可能吗(我的意思是:一个实例失去了与其 EBS 卷的连接)?
  2. 我该如何调试这个问题并确保情况确实如此?
  3. 最重要的是:我该如何防止这种情况发生?

答案1

到目前为止,EBS 是 AWS 上最可靠的选择。它不仅更好,还可以轻松拍摄快照并重新连接到另一个实例。我们有非常大的基于 EBS 的 Ec2 实例,供媒体网站使用,从未出现过这样的问题。除此之外,亚马逊保证这项服务的正常运行时间为 99.95%,如果出现故障,将退款。

回答您的问题。

  1. 这种情况不太可能发生,除非您的实例健康状况因某种原因不佳。但过去曾报告过类似的问题,即 IOPS 不佳。
  2. 检查“读写 IO”与“队列中的待处理 IO”。因此,如果队列中有待处理 IO 而 IO 为 0,则表示存在问题。参见 SLA。
  3. 检查实例的运行状况 + EBS IOP 的运行状况。您可以在一定程度上使用 cloudwatch 来实现这一点。检查此链接。

相关内容