硬盘预防性维护

硬盘预防性维护

我有几台服务器(HP ProLiant DL380、DL360 和 DL120),它们都设置了热备盘,还有几台带有一些外部磁盘的常规工作站。

我想为这些系统创建预防性维护程序,并且想知道哪种维护是可取的。

  1. 对于具有热备的服务器,当硬盘发生故障时,更换硬盘就足够了吗?

  2. 对于常规工作站和外部磁盘,我可以进行任何检查来检查硬盘驱动器的状态,或者无论如何我都可能希望在某个时间间隔更换硬盘驱动器?还是只是在发生故障时从备份中恢复?

答案1

我在一个大型数据中心(64,000 平方英尺)管理着数千台具有各种 RAID 设置的 HP Prolient 服务器。通常有两种情况我会更换驱动器,一种是发生故障时,另一种是预测到故障时。不过,我认为后者更像是“将来某个时候这个驱动器将会发生故障”。我听说这与 HP 的通信或监控问题有关。

我建议你总是在磁盘发生故障时更换它,即使服务器有热备用。我不喜欢用这句话,但想想墨菲定律。然而,我想到了一些事情。

  1. HP 的支持级别。您是否与他们签订了支持合同?
  2. 这个盒子有多重要?
  3. 现场技术可及性。CE 能否快速到达现场?
  4. HP 提供部件。
  5. 一个相当大的问题是部门预算。你能负担得起更换他们的费用吗?

再次强调,这些只是我想到的一些事情。

至于预防措施,ASHRAE 内具有良好清洁工作温度和湿度的环境(点击此处快速发布博文)或制造商规格是您能做的最好的事情。此外,良好的监控对于及时发现这些问题大有裨益,从而最大限度地减少停机时间。您可以查看惠普洞察就我个人而言,我远离惠普代理,并严格监控服务器的集成 Lights Out (iLo) 界面,并借助惠普 SIM以及内部票务系统。

至于工作站,上述内容仍然适用。您永远不应该遇到必须从备份中恢复的情况。而且,简单地更换磁盘是无法运行服务器/工作站的。不过,我不管理工作站,所以其中一些可能有些过头了。

答案2

对于具有热备的服务器,当硬盘发生故障时,更换硬盘就足够了吗?

因此,这些可能是同一型号的磁盘,甚至可能是来自同一制造批次。您有多大把握认为每个磁盘都会在不同时间发生故障?好的,备用磁盘应该具有非常不同的工作负载,这将有助于错开其相对于保存实际数据的磁盘的故障 - 显然必须在 RAID 阵列中 - 但您的 RAID 阵列是否支持超过 1 个磁盘发生故障?

即,即使文件系统仍然可用,您是否已经设置了监控和警报来检测故障磁盘?

您可以通过捕获 SMART 警报来主动监控磁盘健康状况 - 但您无法说明这些磁盘上运行的是什么操作系统。定期运行表面扫描也是一个好主意(频率取决于数据的重要性以及数据丢失的影响程度 - 但每月不超过一次)。应该可以从 RAID 组中换出磁盘​​,然后重新集成它,而无需停机。事实上,如果您做得正确,则不会对性能产生影响。

相关内容