我遇到了一个奇怪的情况,就在 Ubuntu(Ubuntu 或 Ubuntu 高级选项)启动屏幕之后,我遇到了间歇性崩溃,导致 Dell PowerEdge 1950 Gen II 的 BIOS 出现致命的 i/o 错误并重新启动系统。
我不断收到的错误是:
- E1422 CPU 机器检查
- E1715 I/O 严重错误
到目前为止的故障排除
- 通过 iDrac 检查了日志但这些并没有太大帮助。
- 执行了戴尔完整硬件诊断,没有发现任何错误
- 物理检查了服务器内是否存在任何丢失的连接,但一切正常。
- 检查所有固件是否均已更新。
- 清除 NVRAM
问题似乎是在启动之后,内核在加载 megaraid 时崩溃了,但由于服务器立即重启,因此很难解决这个问题。
我还运行了 journalctl、systemctl 和 dmesg,系统启动几次后没有报告或记录任何错误。
循环遍历大量不同的 SAS 驱动器(15k 和 10k rpm),并在 USB 上运行 Ubuntu 16.04。
我采取的最后一步是尝试另一个运行良好的发行版,因此根据经验,问题似乎出在 Ubuntu 的内核中。
编辑1
进一步进行上述硬件故障排除。
我已拆卸了 1950 内的所有部件,清洁并重新在 E5335 CPU 和所有板载冷却器以及 RAID 控制器上涂抹导热油脂。
关于我可以做什么来解决启动时崩溃的内核问题,有什么想法吗?