两周内 3ware raid 上的三个磁盘出现 ECC 错误

两周内 3ware raid 上的三个磁盘出现 ECC 错误

我有一台为客户维护的服务器,这是一台基于 Intel Nehalem 的计算机,所以不是新的,但运行正常。它有一个 3ware 9650SE-24M8 卡,上面连接了 20 个驱动器和 4 个空插槽,配置成 5 个 raid5 阵列。这些阵列中的三个由 2TB 驱动器组成,另外两个由 3TB 驱动器组成。在过去的两周里,我们丢失了同一个阵列中的 3 个 3TB 驱动器,其中两个是同一天丢失的。我们每晚都会备份,所以不会丢失数据,但停机时间和更换磁盘的成本很高。丢失是指卡正在报告 ECC 错误状态。2TB 驱动器的运行时间接近 25000 小时,3TB 驱动器的运行时间接近 10000 小时。

环境温度大约为 25C,而驱动器(根据智能)空闲温度约为 28-30C。操作系统是 fedora Linux 13 amd64(我已经尝试升级六个月了,但无法让操作足够稳定,让我感到准备好了)。

我现在不知道该怎么办了,到目前为止已经有两个驱动器坏了,都是 1TB 并且很旧,而且相隔几个月。有帮助或建议吗?

相关内容