在我们启动时,当我们尝试将应用程序移动到新服务器时,我们在新服务器上遇到了 Ubuntu 16.04 挂起的情况,它响应 ping 但 ssh 挂起
debug1: Entering interactive session.
当尝试直接使用屏幕+键盘登录时,没有显示登录信息。
对服务器进行电源循环后,它可以正常启动,但由日志文件等应用程序打开的某些(或所有?)文件末尾有一些零块,因此这些文件似乎已损坏。
我们的磁盘设置如下:
3 x SSD, configured as Software Raid 5 (mdadm) with LVM on top:
- 1x ext4 Logical Volume for Host OS(Ubuntu 16.04)
- 1x ext4 Logical Volume holding mysql datadir used from a Virtual Machine
3 x HDD, configuredd as Software Raid 5 (mdadm) with LVM on top.
- Raid is congigured for 4 disks, with one missing that we'll add later
- 1x ext4 Logical Volume for data storage
服务器配置:
384 GB Ram
2x Xeon E5-2620 v4
我的问题是:
- 文件是否已损坏,我们需要使用备份还是继续操作?
- 新安装的系统怎么会在如此短的运行时间后就挂起呢?
我的猜测是:
- 文件可能已损坏,因此我们应该使用备份
- 崩溃可能是由于操作系统文件系统缓存快速填满以及 raid+lvm+虚拟机设置可能错位而发生的,这导致 SSD 速度太慢,无法跟上 i/o,从而导致系统冻结
答案1
该系统锁定时在做什么?需要更多信息来推测原因...
我会担心 mysql 数据库或正在写入的任何其他重要内容。检查您的数据库!在每个阵列上运行数据清理,并在每个文件系统上运行 fsck,也许这是可以修复的。如果对数据完整性有任何担忧,请从备份中恢复。
https://wiki.archlinux.org/index.php/Software_RAID_and_LVM#Scrubbing
我认为没有理由将软件 RAID 或 LVM、速度慢的 SSD、FS 缓存等视为主要罪魁祸首。可能还有许多其他原因。我首先担心的是硬件问题(如 RAM)。您也可以使用各种工具检查它。
您没有提到-主机是否遇到损坏,还是虚拟机?