我在 DC 管理大约 120 多台服务器。我们使用 HDD(SAS 驱动器)安装了 Linux,并在 SSD 上安装了 VMWare。我们的数据中心曾两次出现电源问题,使用 SSD+Vmware 的服务器从未出现过问题,但使用 SAS 驱动器的 Linux 服务器(ext4)在启动时出现问题。
我的问题是,SAS 驱动器还是 Linux 导致了这个问题?(而我们的 VMware + SSD 服务器没有问题)
编辑:这被观察到多次,而不只是一次。
答案1
凡是具有机械运动部件的物体都会随着时间而磨损,而启动时是 HDD 电机负载最大的时候。
在服务器使用中,您的硬盘可能已经连续旋转了好几年。当这样的硬盘停止并冷却时,潜在的硬件故障变成实际故障的风险就会增加:也许磨损的轴承在冷却时有太多的摩擦力,无法满足硬盘固件的旋转时间自检要求,或者硬盘电路板上的某些电解电容器可能随着时间的推移而退化,不再能在需要全功率时保持足够稳定的电压。
这是硬盘驱动器的常见现象,也适用于其他组件:风扇轴承可能已经磨损严重,只能通过陀螺力保持对齐,当它停止并冷却时,就会失去对齐并卡住。因此,在关闭之前运行“完全正常”的服务器在重新启动时可能会出现一个或多个风扇故障。
一位老 HP-UX 服务工程师曾经告诉我,当一台长期连续运行的旧服务器需要停机维护时,最明智的做法是先将其完全关闭,然后不做任何其他操作就重新启动一次:重新启动将使任何处于故障边缘的组件都有机会暴露自己。
此外,如果到目前为止所做的只是受控关机和重新启动尝试,而这恰好揭示了以前未知的故障,那么客户将无法令人信服地说“你弄坏了我的服务器”。
如果您谈论的是文件系统级别的问题,那么 SSD 确实需要比 HDD 更少的电量,因此在其他条件相同的情况下,在电源丢失时,在 PSU 中的电容器(以及磁盘本身)实际耗尽电量之前,配备 SSD 的系统可能有更好的机会完成任何正在进行的写入操作。
尽管如此,数据中心断电是一件非常糟糕的事情。如果之后你遇到的唯一问题是 120 多台服务器中的几台无法启动,你应该认为自己很幸运:你安然无恙。
如果您的数据中心没有足够的 UPS 容量(无论是处理电源故障还是转换到本地发电机,以适当者为准),那么您仍然应该有足够的容量来控制所有系统的关闭,并有一定的储备,和经过测试的自动化流程,当 UPS 检测到输入电源中断超过 X 秒时,会触发快速受控关机。如果您的 UPS 容量甚至不足以满足这一要求,则有人对数据中心业务并不认真。