与硬盘故障相比,电源故障有多常见?

与硬盘故障相比,电源故障有多常见?

我的虚拟主机为专用服务器提供了两种不同类型的高可用性选项:

  1. 冗余硬盘(RAID1)

  2. 冗余硬盘(RAID1)加冗余电源

与硬盘故障相比,电源故障有多常见?我知道在不知道具体硬件的情况下不可能知道确切的数字,但目前大概的数字对我来说已经足够了。

谢谢,

阿德里安

答案1

我通常看到硬盘故障比电​​源故障多得多。在任何一年中,我可能会更换 20 或 30 个硬盘,但可能只更换 3 或 4 个电源。关于冗余电源,有一点需要注意,如果它们只是冗余的,那就很好了,如果它们是负载平衡 + 冗余的,那就太棒了。除了两次直接被雷击中之外,在不同的客户机上,我从来都不必担心冗余/负载平衡电源会出问题。完成负载平衡确实有助于保持电源健康。当电源负载平衡时,我经常在更换电源之前更换整个服务器。

答案2

这里最大的因素之一是电源进入电源之前的调节。服务器类型的硬件往往受 UPS 保护,这通常似乎可以延长电源的使用寿命,因为它可以获得更干净的正弦波,并且通常不会出现太多故障等。大多数情况下,服务器中的电源(和大多数风扇)会在服务器电源循环时发生故障。多年来一直不停运转的电源和风扇在断电后会突然停止运行,并且拒绝重新启动。如果电源在运行过程中发生故障,则可能导致服务器随机冻结或出现其他异常并停止响应。

硬盘似乎会随机发生故障,并且几乎不会引起注意。RAID1 是一个不错的解决方案(RAID6 更好,您可以从驱动器中获得更多容量,并且可以同时承受两个故障)。RAID 的问题是您需要有相同的驱动器来替换发生故障的驱动器,而这些驱动器在事后可能很难找到,因此建议您购买替换驱动器以及原始驱动器,并随时准备好。当从网络主机租用专用服务器时,他们会声称已经这样做了,但在某些时候,他们会使用不同的驱动器构建他们的新服务器,并最终用完您的阵列使用的驱动器,这可能意味着您在需要热插拔时运气不佳。此外,Google 对硬盘进行了广泛的研究,他们发现驱动器要么几乎立即损坏(大约在第一个月内)要么持续几年,然而,相同的驱动器往往会在大约同一时间发生故障,这就是 RAID6 显示其优势的地方。(缺点是它需要更多驱动器和更昂贵的控制器)

如果你能负担得起,就把所有东西都省掉。如果你负担不起,你应该再问问自己,你是否真的能承受不这样做的后果。

答案3

凭借我使用戴尔和惠普服务器的 15 年经验,我可以告诉您,您可以测量每年发生故障的驱动器数量,而另一方面,您可以测量电源故障之间的年数。

答案4

这取决于您可以承受多少停机时间。

如果单个硬盘出现故障,在 RAID1 中您仍然可以正常运行。

如果单个电源发生故障,您的服务器将瘫痪,直到更换电源为止。

是的,优质数据中心的电源通常可以使用很长时间,可能超过服务器的使用寿命。但这仍然是一种风险。此外,还有一个问题是更换需要多长时间——数据中心会堆放备用电源吗,还是必须订购或诸如此类。

对于这些事情,有可用性估计。我认为数据中心应该只为您提供按价格获得的正常运行时间的估计百分比,而不是试图让您参与如何实现它的技术讨论。

但是,一般来说,如果您可以承受服务器意外停机时间,从 30 分钟(如果数据中心堆放电源)到 3-5 个工作日(或订购和交付新服务器所需的任何时间),则无需额外电源。如果您不愿意,请考虑一下,如果您为此做好了准备,价格是否合适。一般来说,额外的电源不应该太贵。

相关内容