硬盘预防性维护

Question 1

我在一个大型数据中心（64,000 平方英尺）管理着数千台具有各种 RAID 设置的 HP Prolient 服务器。通常有两种情况我会更换驱动器，一种是发生故障时，另一种是预测到故障时。不过，我认为后者更像是“将来某个时候这个驱动器将会发生故障”。我听说这与 HP 的通信或监控问题有关。

我建议你总是在磁盘发生故障时更换它，即使服务器有热备用。我不喜欢用这句话，但想想墨菲定律。然而，我想到了一些事情。

HP 的支持级别。您是否与他们签订了支持合同？
这个盒子有多重要？
现场技术可及性。CE 能否快速到达现场？
HP 提供部件。
一个相当大的问题是部门预算。你能负担得起更换他们的费用吗？

再次强调，这些只是我想到的一些事情。

至于预防措施，ASHRAE 内具有良好清洁工作温度和湿度的环境（点击此处快速发布博文）或制造商规格是您能做的最好的事情。此外，良好的监控对于及时发现这些问题大有裨益，从而最大限度地减少停机时间。您可以查看惠普洞察就我个人而言，我远离惠普代理，并严格监控服务器的集成 Lights Out (iLo) 界面，并借助惠普 SIM以及内部票务系统。

至于工作站，上述内容仍然适用。您永远不应该遇到必须从备份中恢复的情况。而且，简单地更换磁盘是无法运行服务器/工作站的。不过，我不管理工作站，所以其中一些可能有些过头了。

Answer

我在一个大型数据中心（64,000 平方英尺）管理着数千台具有各种 RAID 设置的 HP Prolient 服务器。通常有两种情况我会更换驱动器，一种是发生故障时，另一种是预测到故障时。不过，我认为后者更像是“将来某个时候这个驱动器将会发生故障”。我听说这与 HP 的通信或监控问题有关。

我建议你总是在磁盘发生故障时更换它，即使服务器有热备用。我不喜欢用这句话，但想想墨菲定律。然而，我想到了一些事情。

HP 的支持级别。您是否与他们签订了支持合同？
这个盒子有多重要？
现场技术可及性。CE 能否快速到达现场？
HP 提供部件。
一个相当大的问题是部门预算。你能负担得起更换他们的费用吗？

再次强调，这些只是我想到的一些事情。

至于预防措施，ASHRAE 内具有良好清洁工作温度和湿度的环境（点击此处快速发布博文）或制造商规格是您能做的最好的事情。此外，良好的监控对于及时发现这些问题大有裨益，从而最大限度地减少停机时间。您可以查看惠普洞察就我个人而言，我远离惠普代理，并严格监控服务器的集成 Lights Out (iLo) 界面，并借助惠普 SIM以及内部票务系统。

至于工作站，上述内容仍然适用。您永远不应该遇到必须从备份中恢复的情况。而且，简单地更换磁盘是无法运行服务器/工作站的。不过，我不管理工作站，所以其中一些可能有些过头了。

Question 2

对于具有热备的服务器，当硬盘发生故障时，更换硬盘就足够了吗？

因此，这些可能是同一型号的磁盘，甚至可能是来自同一制造批次。您有多大把握认为每个磁盘都会在不同时间发生故障？好的，备用磁盘应该具有非常不同的工作负载，这将有助于错开其相对于保存实际数据的磁盘的故障 - 显然必须在 RAID 阵列中 - 但您的 RAID 阵列是否支持超过 1 个磁盘发生故障？

即，即使文件系统仍然可用，您是否已经设置了监控和警报来检测故障磁盘？

您可以通过捕获 SMART 警报来主动监控磁盘健康状况 - 但您无法说明这些磁盘上运行的是什么操作系统。定期运行表面扫描也是一个好主意（频率取决于数据的重要性以及数据丢失的影响程度 - 但每月不超过一次）。应该可以从 RAID 组中换出磁盘，然后重新集成它，而无需停机。事实上，如果您做得正确，则不会对性能产生影响。

Answer

对于具有热备的服务器，当硬盘发生故障时，更换硬盘就足够了吗？

因此，这些可能是同一型号的磁盘，甚至可能是来自同一制造批次。您有多大把握认为每个磁盘都会在不同时间发生故障？好的，备用磁盘应该具有非常不同的工作负载，这将有助于错开其相对于保存实际数据的磁盘的故障 - 显然必须在 RAID 阵列中 - 但您的 RAID 阵列是否支持超过 1 个磁盘发生故障？

即，即使文件系统仍然可用，您是否已经设置了监控和警报来检测故障磁盘？

您可以通过捕获 SMART 警报来主动监控磁盘健康状况 - 但您无法说明这些磁盘上运行的是什么操作系统。定期运行表面扫描也是一个好主意（频率取决于数据的重要性以及数据丢失的影响程度 - 但每月不超过一次）。应该可以从 RAID 组中换出磁盘，然后重新集成它，而无需停机。事实上，如果您做得正确，则不会对性能产生影响。

硬盘预防性维护

答案1

答案2

相关内容