我最近构建了一个小型集群来运行 Solr。该集群由 12 个运行 E3-1270V2 的 Supermicro Blades 和 32GB 内存组成。
其中 11 台服务器运行良好。其中一台经常崩溃。当服务器崩溃时,它通常会在终端上产生一些输出。第一次是:
双误:0000 [#1]
嗯……这太神秘了。从那时起,我重现了这个问题,并收到了一些更有趣的消息。
这里还有另一条同样神秘的信息……
另一个有趣的问题是,我可以启动 sysbench 并最大限度地利用 CPU 而不会崩溃,但直到我启动 Java 时它才会可靠地崩溃。
我尝试关闭以下 CPU 功能:
- 涡轮模式
- C 州
- T 州
- 西门子
这仅仅是 CPU 质量不好吗?
非常感谢!
答案1
我在 HP ProLiant 服务器上使用 Nehalem 和 Westmere CPU 时有过这种经历。在我的例子中,服务器可以正确 POST 并识别所有 RAM,但在应用负载后会产生与特定插槽相关的机器检查异常。
如果您还没有这样做,请尝试将问题隔离到特定的 DIMM 或 DIMM 插槽,看看它是否与模块的移动有关。如果错误仍然存在并且与特定插槽有关...我建议检查 CPU 插槽。检查 CPU 的主板插槽并记下弯曲的针脚。
这是 SuperMicro 的设备,所以我不知道保修条款。但希望这只是 RAM,因为更换它比更换系统板更容易。