更换硬盘

更换硬盘

我想知道,在(相当)系统关键数据库服务器中使用一定年限后,在硬盘损坏之前更换它是否是一个好主意。

例如,我打算在使用 3 年后更换硬盘。由于我在服务器上拥有多块硬盘,因此我可以错开更换硬盘的时间。

这是一个好主意吗?还是人们只能等待失败?

答案1

Google 对磁盘驱动器进行了研究,发现磁盘使用年限与故障之间的关联很小。SMART 测试也不会显示故障。

我的本地观察结果(>500 台服务器)类似。我的新磁盘很快就坏了,而旧磁盘却还能正常运转。

我的一般规则是,如果我们发现磁盘问题(SMART 或系统错误),我们会立即更换。如果没有,那么驱动器也会在服务器出现故障时循环出故障。

谷歌研究 http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

答案2

不。

在活动生产服务器上更换硬盘的最大问题之一是,这样做会触发重建。特别是如果您使用的是 RAID5,并且使用的是大型驱动器,强制重建会产生非常大的不可恢复故障风险。重建期间丢失阵列的风险远远大于将 3 年旧的驱动器留在原处的风险。

举一个极端的例子,如果你连续更换由 2TB 磁盘组成的 6 磁盘 RAID5 阵列中的每个磁盘,那么在重建期间发生不可恢复的读取错误的理论风险约为 58%(根据我的餐巾纸计算;请自行计算并比较记录)。换句话说:你的“预防性”磁盘更换实际上不亚于破坏行为。

我唯一会考虑更新旧服务器中的驱动器的情况是“翻新”它的过程中,例如,在从一个任务中退役之后,在将其重新投入新角色之前。即使在那个时候,容量和性能要求也比驱动器的使用年限重要得多。

答案3

我没见过。我们对服务器进行保修,直到它们停产为止 - 5 年。标准 RAID 5 可让您在磁盘故障时幸存下来,因此我们只保留几个驱动器,以便我们可以立即开始重建,在关键服务器上,我们包括热备用或使用 RAID 10。

如果您最近注意到服务器中的几个驱动器出现故障,则可能是背板问题。也可能是附近建筑产生的新振动或灰尘。

相关内容