在 IT 世界中,我刚刚中了两次彩票……
今天,我们的 RAID 阵列中有一个硬盘出现故障。几个小时后,另一台服务器上的另一个硬盘也出现故障......我们立即开始检查所有环境日志和系统。湿度为 40%,温度为 75*,没有灰尘或其他颗粒飞扬。我们检查了 UPS 日志,没有报告峰值。大约 3 小时后,第三个系统上的另一个硬盘出现故障......
回顾一下 3 台 HP DL380 G7,这些服务器都是连续的序列号。驱动器不是来自同一批次,但我敢打赌阵列控制器和主板是。HP 将在早上发货……与此同时,我们希望这不会成为一种习惯……在 2.5 年内,我们在整个服务器机架中遇到过 1 个驱动器故障。今天 12 小时内发生了 3 次!
我们还应该寻找什么?其他人有遇到过类似的问题吗?
任何帮助都非常感谢。这次事故已经消耗了我们的备件……如果再次发生故障,我们将寻求 HP 来更换它们。
更新:这些是 146 GB 10k rpm SAS 驱动器和一个 300 GB 10k rpm SAS 驱动器。HP 原装设备。
答案1
这些事情发生了......你会对我使用相同规模的设备所看到的情况感到惊讶。
您做对了,检查您的环境静电放电 (ESD)、温度和功率问题。
作为 ProLiant DL380 G7 设备,阵列控制器嵌入在系统板上。批号控制得不是太严格。我认为这只是巧合。然而,这可能是一些固件更新的好时机,因为错误的驱动器故障有时是错误修订的征兆。
既然您有支持,那就让 HP 处理零件/更换并继续前进 :)
顺便说一句 - 详细说明所涉及的驱动器容量和类型(SAS,SATA,近线 SAS)将会很有帮助