我们在不同的数据室安装了 2 台 HP Lefthand SAN 服务器。上周,每个 SAN 都出现了 1 个硬盘故障。它们位于 SAN 的不同位置。两个数据室都通过 UPS 很好地避免了电源故障。
有什么想法可能影响了这一点?
谢谢,卡尔
答案1
我想到了几件事:
- 您的所有磁盘都共享相同的环境。如果曾经发生过对磁盘造成压力的事件,则该 SAN 中的所有磁盘都会受到影响。在组装、交付和安装机架时是否粗暴地处理过机架?数据中心是否曾发生过过热事件?
- 这些磁盘是同一批次生产的吗?也许它们是在某人的磁盘坏了的时候制造的星期一综合症?
- 当一个驱动器发生故障时,该阵列中的其他驱动器会承受压力,因为控制器会疯狂地读取/写入以重建奇偶校验。如果还有其他驱动器已经处于临界状态,这种利用率模式的突然变化可能会将它们推到临界状态。随着驱动器越来越大,重建时间越来越长,问题越来越严重。
答案2
听起来很奇怪,但它们是热备用磁盘吗?
我曾见过热备用设备启动并接管时发生连续故障(尽管不是同一天的情况)。如果该备用设备闲置了一段时间,则将其投入使用可能会导致其已存在的问题开始显现。这至少是我的理论,我坚持这一观点!=)
答案3
我觉得这听起来很随意,我们雇人更换磁盘,不管是什么品牌/型号/类型/速度/配置,只要制造商能制造,磁盘就无法在任何地方的企业环境中使用。不过要密切关注他们。
答案4
它们是同时购买的吗?可能是来自同一批硬盘,因此有相似的制造异常。如果是这样,您应该尽快更换这些硬盘,以免其他硬盘出现故障。