Ubuntu 14.04 在闲置 2-12 小时后变得无响应

Ubuntu 14.04 在闲置 2-12 小时后变得无响应

正如标题所述,我的 Ubuntu 14.04 服务器在闲置一段时间后变得无响应。它将成为一个 NGNX 代理盒,但由于显而易见的原因,尚未接收生产流量。它运行了大约一个月,没有出现问题,而我正在等待网络设备升级,然后再向其发送流量。

但几周后,它开始变得没有响应,我不得不通过 IPMI 重新启动该盒子(我没有物理访问权限)。重新启动后,我调查了日志,发现内核日志中有几个“处理 MCE 内存错误”。这个过程重复了好几天。我让一位服务器人员更换了 DIMMS,错误消失了,但原来的问题仍然存在。

接下来,我运行了 MEMTEST 大约 60 小时,没有出现任何错误。然后使用 MPRIME 对 CPU 进行了 24 小时的压力测试,在测试期间,服务器始终保持运行状态,没有出现任何错误。

因此,内存和 CPU 似乎运行正常,但当机器闲置一段时间后,它就会变得没有响应,我必须重新启动它。我不认为这是电源设置问题,因为在此之前它已经运行了大约一个月。

有任何想法吗?

编辑:最终无法解决这个问题,所以只是将硬盘卡在相同的系统中。

相关内容