2天前我收到一条警告消息:
A DegradedArray event had been detected on md device /dev/md1.
我联系了我的数据中心,要求他们更换硬盘。他们告诉我,有时重启服务器可以解决问题。我重启了服务器,但它并没有恢复在线。
数据中心告诉我两个硬盘都已损坏,建议更换它们并继续服务器恢复。
我恢复了服务器,第二天 / 分区就进入了只读模式。我收到了数据中心发来的消息:
尊敬的顾客,
文件系统检查已完成。正如所怀疑的那样,文件系统结构已损坏,服务器无法启动。由于大量文件系统错误,/dev/md2 的数据已移至目录 lost+found。您可以通过实际触发的恢复模式(恢复密码:***)在目录 /mnt 中访问文件。请检查并尝试备份您的文件。然后对操作系统进行全新恢复。
我还检查了两个硬盘的 SMART 值。两个硬盘的 SMART 值都很好。
什么原因会导致硬盘出现此类问题?我的数据中心是否可能没有更换损坏的驱动器,而是使用相同的驱动器进行了新安装?
答案1
您的数据中心的工作人员都是懒人、白痴,或者很可能是懒惰的白痴。
重新启动不会(或至少不应该)奇迹般地修复故障的硬盘。
重新安装驱动器(一种非常常见的“技巧”)不会修复因错误而被标记为故障的驱动器(它最终会再次离线)。
您的服务器在重启后无法幸存,这意味着您有逻辑损坏 - 可能是由于多个物理故障或其他问题。
按照他们说的备份所有内容,然后将磁盘换成新的,下次您遇到磁盘故障时,请坚持让他们更换驱动器并重建 RAID 阵列。