只是一个简单的问题:在服务器硬盘出现故障(最终会在某个时间点出现故障)之前,是否有理由在 x 年后更换它,还是应该等到它出现故障再更换?我对实际的服务器管理经验很少,所以我想知道...
答案1
改变它的一个很好的理由是,如果你想在待办事项列表中添加另一项任务,同时增加出错的可能性。
玩笑归玩笑,我听说确实没有理由提前更换驱动器。如果您已安装 RAID,则您已经拥有保护措施(假设您拥有可靠的备份),并且您不会以要处理的死驱动器的形式产生废物,也不必不必要地从驱动器中删除敏感数据。您不会在新驱动器上花费额外的钱,而且您仍然不会主动防范可能仍然出错的事情,例如驱动器控制器故障,这虽然不是驱动器故障源,但确实会发生。
另一方面,这可能有助于您发现未触发 RAID 单元警报的不可恢复驱动器错误,就像我们在 RAID 5 中遇到的那样。我们被这个问题困扰,最终需要从备份中从裸机重建(因此即使在这种情况下,适当的备份也会帮助您恢复。)考虑到当今更大的驱动器容量和不可恢复的错误容忍度的 RAID 级别会对我们有所帮助,否则,备份可以挽救局面。
大多数管理员都有一个不错的 RAID 和备份计划,因此没有必要通过不必要地更换驱动器来产生额外的浪费。
答案2
我唯一会考虑这一点的情况是,如果我有一批来自同一批次的磁盘,而该批次中的其他磁盘已经开始出现故障,那么我可能会考虑它。
如果空间紧张,我当然会这么做——但仅仅因为它已经过时了?不,因为平均而言第一年的故障率与其他年份的故障率相似.(请注意,该图将第一年分为 3 个月、6 个月和 1 年,但您必须将它们全部加在一起才能得到 1 年时发生故障的概率)。当查看高磁盘利用率时,第一年发生故障的可能性比接下来三年的总和还要大。
与后期驱动器故障唯一相关的是较热的房间,而我们保持服务器机房凉爽。
答案3
我完全赞成采取主动措施,但我从未这样做过,也从未听说有人这样做。假设您有某种类型的 RAID 设置,并且定期对相关系统进行有效备份。
答案4
这取决于硬盘故障造成的影响。
如果您没有 RAID
如果您不关心服务器可用性,因为服务可以停止,或者因为它处于高可用性状态,并且您有可用的数据备份。我会说好的,让驱动器死掉并更换它,并在它发生故障时恢复数据。
如果您关心可用性,我会说使用 RAID ;)
如果你有 RAID(1、5、6……),
我想说,为什么在故障前更换硬盘?RAID(和备份)就是为此而存在的。更换硬盘以防万一发生故障,可能会损坏某些东西(RAID 重建总是有风险的)
但这只是我的观点!如果您认为您的驱动器可能太旧,您可能也想更换您的服务器。