PowerEdge 6650 磁盘问题

PowerEdge 6650 磁盘问题

这是一个我已经斗争了一段时间的怪事。我有一台旧的过了保修期的 Dell PowerEdge 6650 服务器,它带有一个 PERC 3/DC RAID 控制器,控制着 RAID5 阵列中的四个较新的(可能已有一年历史)富士通 136GB U320 SCSI 磁盘。

大概每个月一次,其中一个磁盘会随机“故障”。故障意味着 PERC 认为它们发生故障,并开始发出蜂鸣声和警报声。要解决这个问题,我只需移除并重新安装“故障”磁盘,它就会开始重新同步阵列。重新同步完成后,机器正面的挡板灯会从橙色变​​回蓝色,蜂鸣声停止。

我的主要问题是,是什么原因导致这些磁盘“故障”,而实际上它们完全没有问题。起初我以为这可能是固件问题,所以我重新刷新了系统中的每个可刷新组件。BIOS、PERC 固件、磁盘固件,一切。

似乎没有任何原因或事件会引发非故障,它只是随机发生。

这不是一个大问题,但绝对是我想解决的问题。戴尔不会提供支持,因为机器已经过了保修期,而且他们的网站/论坛一如既往地毫无用处。

答案1

我喜欢尽可能长时间地运行旧硬件,但我会更换机器。您将很难在解决这个问题上取得任何进展。

我怀疑“故障”驱动器上的固件(可能是热插拔背板)和 RAID 控制器之间存在微妙的相互作用。戴尔和富士通都不再有人测试这些驱动器和控制器,而且这两家公司也不太可能有人对此感兴趣。

每次发生这种情况时,您都会将阵列置于风险之中,因为阵列正在降级并被重建。如果在重建过程中另一个磁盘发生真正的故障,您将面临阵列故障的情况。希望您有好的备份。

这令人沮丧,因为添加磁盘确实应该可以正常工作,但是对于这个年龄的东西,你最好咬紧牙关,获得积极制造商支持的东西。

答案2

我要说的第一件事就是更新固件,因为这种情况在带有 PERC 控制器的 PE 服务器上经常发生。

仅仅因为阵列能够在您重新安装磁盘时重建,我认为这并不意味着驱动器没有问题,它可能正在出故障,这就是它不断从阵列中掉线的原因。这就是为什么当戴尔告诉我只需重新安装它时,我会尝试让他们给我发送一个新的(即使他们可能只是给我发送一个别人寄回的 :-/ )。

答案3

我的 Power Edge 2650 也遇到了同样的问题,事实上,这是 PERC 的问题,如果你有备用的,可以尝试更换它。

答案4

您说您已经刷新了 RAID 卡的固件。您是否同时更新了它的驱动程序?在之前与戴尔就驱动器故障进行的支持通话中,他们总是令人恼火地坚持说我们使用的是 RAID 卡的最新固件和驱动程序。

其中一位甚至建议我在更新固件后从头开始重建阵列,以使驱动器不再出现故障。幸运的是,在我诉诸于此之前,我让他们更换了驱动器(这曾是问题)。所以我无法确认或否认他的建议是否有效。

我还有最后一个想法,只是因为你没有明确提到。你检查过实际驱动器的固件更新吗?

相关内容