Centos 6.5 因内核崩溃

Centos 6.5 因内核崩溃

我最近构建了一个小型集群来运行 Solr。该集群由 12 个运行 E3-1270V2 的 Supermicro Blades 和 32GB 内存组成。

其中 11 台服务器运行良好。其中一台经常崩溃。当服务器崩溃时,它通常会在终端上产生一些输出。第一次是:

双误:0000 [#1]

嗯……这太神秘了。从那时起,我重现了这个问题,并收到了一些更有趣的消息。

这是一个例子...

这里还有另一条同样神秘的信息……

这是另一个例子

另一个有趣的问题是,我可以启动 sysbench 并最大限度地利用 CPU 而不会崩溃,但直到我启动 Java 时它才会可靠地崩溃。

我尝试关闭以下 CPU 功能:

  • 涡轮模式
  • C 州
  • T 州
  • 西门子

这仅仅是 CPU 质量不好吗?

非常感谢!

答案1

我在 HP ProLiant 服务器上使用 Nehalem 和 Westmere CPU 时有过这种经历。在我的例子中,服务器可以正确 POST 并识别所有 RAM,但在应用负载后会产生与特定插槽相关的机器检查异常。

如果您还没有这样做,请尝试将问题隔离到特定的 DIMM 或 DIMM 插槽,看看它是否与模块的移动有关。如果错误仍然存​​在并且与特定插槽有关...我建议检查 CPU 插槽。检查 CPU 的主板插槽并记下弯曲的针脚。

这是 SuperMicro 的设备,所以我不知道保修条款。但希望这只是 RAM,因为更换它比更换系统板更容易。

相关内容