软件 Raid + LVM + 虚拟机:崩溃后文件损坏

软件 Raid + LVM + 虚拟机:崩溃后文件损坏

在我们启动时,当我们尝试将应用程序移动到新服务器时,我们在新服务器上遇到了 Ubuntu 16.04 挂起的情况,它响应 ping 但 ssh 挂起

debug1: Entering interactive session.

当尝试直接使用屏幕+键盘登录时,没有显示登录信息。

对服务器进行电源循环后,它可以正常启动,但由日志文件等应用程序打开的某些(或所有?)文件末尾有一些零块,因此这些文件似乎已损坏。

我们的磁盘设置如下:

3 x SSD, configured as Software Raid 5 (mdadm) with LVM on top:
    - 1x ext4 Logical Volume for Host OS(Ubuntu 16.04)
    - 1x ext4 Logical Volume holding mysql datadir used from a Virtual Machine

3 x HDD, configuredd as Software Raid 5 (mdadm) with LVM on top.
    - Raid is congigured for 4 disks, with one missing that we'll add later
    - 1x ext4 Logical Volume for data storage

服务器配置:

384 GB Ram
2x Xeon E5-2620 v4

我的问题是:

  • 文件是否已损坏,我们需要使用备份还是继续操作?
  • 新安装的系统怎么会在如此短的运行时间后就挂起呢?

我的猜测是:

  • 文件可能已损坏,因此我们应该使用备份
  • 崩溃可能是由于操作系统文件系统缓存快速填满以及 raid+lvm+虚拟机设置可能错位而发生的,这导致 SSD 速度太慢,无法跟上 i/o,从而导致系统冻结

答案1

该系统锁定时在做什么?需要更多信息来推测原因...

我会担心 mysql 数据库或正在写入的任何其他重要内容。检查您的数据库!在每个阵列上运行数据清理,并在每个文件系统上运行 fsck,也许这是可以修复的。如果对数据完整性有任何担忧,请从备份中恢复。

https://wiki.archlinux.org/index.php/Software_RAID_and_LVM#Scrubbing

我认为没有理由将软件 RAID 或 LVM、速度慢的 SSD、FS 缓存等视为主要罪魁祸首。可能还有许多其他原因。我首先担心的是硬件问题(如 RAM)。您也可以使用各种工具检查它。

您没有提到-主机是否遇到损坏,还是虚拟机?

相关内容