我有点困惑。一天晚上,我的服务器死机了。我去重启它,发现它卡在“GRUB”启动屏幕上。然后我注意到硬盘坏了。我装上了一个新硬盘,启动到救援模式并重新安装了 grub。
服务器启动后,我告诉 mdadm 重新同步新驱动器,一切又恢复正常。
直到,我注意到驱动器不知为何有 14 天前(4 月 26 日)的数据。因此,我不得不恢复较新的备份以使服务器保持最新状态。然而,这让我很担心,为什么会发生这种情况?
谢谢
答案1
我猜,如果发生这种情况,则可能发生:raid1 中有 2 个磁盘 - /dev/sda 和 /dev/sdb。例如,mbr 记录在 /dev/sda 上。4 月 26 日,系统认为 /dev/sdb 有故障(由于错误或由于某些程序故障)并已从 raid 中删除。两周后 /dev/sda 出现故障,并且您没有同步 raid。正如您上面所说,您需要设置 mdadm,我建议您设置 smartd(来自 smartmontools 包)。Smartd 几次“救了我一命” :)
PS raid1 不是备份,我遇到过几次事故,当时 2 个驱动器同时出现故障,没有机会从中恢复任何数据。
答案2
也许你的 /boot 不在 raid1 上?只有 / (或者你的其他分区)。
一些旧版本的 grub(猜测是 0.9XI)无法从 mdadm 设备启动。
如果您可以启动 liveCD 或类似设备,也许您将能够安装您的 raid 并保存数据。
答案3
您已安装 RAID1 镜像,其中一个驱动器在 14 天前发生故障。故障严重到卡无法写入,但还不至于无法真正写入工作当您尝试读取/写入时。但由于它被标记为失败,您的 RAID 卡将不再接触它。然后,14 天后,也许是为了应对另一个问题,你取出了其他(较新的)驱动器并将其替换为空白驱动器。
由于故障驱动器已经两周没有写入数据,因此数据是两周前的。这就是您将数据同步到新驱动器的原因,这就是为什么您的服务器看起来已经两周没有使用过。
大概是你的其他硬盘(两周前没有出现故障的硬盘)
A:仍然可用,可用于恢复最近的数据,或者
乙:也失败了,尽管发生的时间更近,而且可能更为严重
RAID-1 中的单个磁盘故障并不严重,因此不会带来任何固有的故障迹象。您的计算机只需继续使用剩余的完好驱动器即可。除非您主动监控 RAID 阵列,否则您不会知道故障,直到其他驱动器也会发生故障,这将导致服务器崩溃(没有剩余可工作的驱动器)。
有些 RAID 卡会重置在某些情况下重新启动后驱动器上的故障/良好标志。这很愚蠢,但确实会发生。
这听起来很像你所发生的事情。