EC2 磁盘使用率达到 100%,但重启后恢复正常

EC2 磁盘使用率达到 100%,但重启后恢复正常

我们在 Amazon EC2 上运行一些生产服务已有一段时间了,主要使用 t1.large 和 t1.xlarge 实例(非 EBS)。偶尔,其中一个附加的(临时磁盘)会进入 100% 实用状态(由 iostat -xtc 报告)。

当磁盘处于这种状态时,它基本上完全无法使用。重新启动可以解决问题,似乎没有任何损坏。这种情况似乎是随机发生的,每隔几周就会发生一次。

我不确定是否有任何软件相关,但我们正在运行最新的 Ubuntu 10.04 (Lucid)。这些临时磁盘当前在 lvm (RAID0) 下运行。以前我们将 mdadm 与 lvm 结合使用。

有没有其他人见过这种行为(不确定它是否特定于 EC2)并且有什么想法可以在不重新启动的情况下避免或纠正它?

答案1

即使是 EC2 实例上的临时存储也会受到多租户的典型问题的影响。不要只是重启服务器,[如果您的配置允许] 完全停止并启动实例,这样您的实例最终会位于不同的虚拟机管理程序上。

这里是一篇关于 Netflix 处理 EC2 上多租户问题的策略的文章。

相关内容