Ubuntu 16.04 导致 PowerEdge 1950 Gen II 崩溃

Ubuntu 16.04 导致 PowerEdge 1950 Gen II 崩溃

我遇到了一个奇怪的情况,就在 Ubuntu(Ubuntu 或 Ubuntu 高级选项)启动屏幕之后,我遇到了间歇性崩溃,导致 Dell PowerEdge 1950 Gen II 的 BIOS 出现致命的 i/o 错误并重新启动系统。

我不断收到的错误是:

  • E1422 CPU 机器检查
  • E1715 I/O 严重错误

到目前为止的故障排除

  1. 通过 iDrac 检查了日志但这些并没有太大帮助。
  2. 执行了戴尔完整硬件诊断,没有发现任何错误
  3. 物理检查了服务器内是否存在任何丢失的连接,但一切正常。
  4. 检查所有固件是否均已更新。
  5. 清除 NVRAM

问题似乎是在启动之后,内核在加载 megaraid 时崩溃了,但由于服务器立即重启,因此很难解决这个问题。

我还运行了 journalctl、systemctl 和 dmesg,系统启动几次后没有报告或记录任何错误。

循环遍历大量不同的 SAS 驱动器(15k 和 10k rpm),并在 USB 上运行 Ubuntu 16.04。

我采取的最后一步是尝试另一个运行良好的发行版,因此根据经验,问题似乎出在 Ubuntu 的内核中。

编辑1

进一步进行上述硬件故障排除。

我已拆卸了 1950 内的所有部件,清洁并重新在 E5335 CPU 和所有板载冷却器以及 RAID 控制器上涂抹导热油脂。

关于我可以做什么来解决启动时崩溃的内核问题,有什么想法吗?

相关内容