我最近组装了一台用于虚拟化的服务器。安装时未发现该问题。当我部署应用程序(基于 ubuntu 12.04 下的 openstack)时,服务器会在随机时间(通常为 10 到 40 小时)内冻结。它可以经受住极端压力测试,这意味着不存在温度问题。有趣的是,当内核用尽了几乎所有缓冲区内存时(我尝试使用 dd),系统几乎冻结并且无法接收任何传入的网络连接,但仍然保持连接。根据手册,如果没有其他可用内存,应用程序应该始终能够从缓冲区分配内存。
另外,我尝试从系统日志中挖掘一些东西,但内核中的信息太多了
更新
等待了一会儿,我得到了一些有用的信息。内核升级后服务器没有崩溃,但留下了一些东西。
Jan 24 19:38:25 shisoft-vmhost kernel: [ 5083.584670] sbridge: HANDLING MCE MEMORY ERROR
Jan 24 19:38:25 shisoft-vmhost kernel: [ 5083.751554] EDAC MC0: 2 CE memory read error on CPU_SrcID#0_Channel#1_DIMM#0 (channel:1 slot:0 page:0xc8b77d offset:0x40 grain:32 syndrome:0x0 - OVERFLOW area:DRAM err_code:0001:0091 socket:0 channel_mask:1 rank:1)
看起来像是内存问题,有什么想法吗?
答案1
服务器中的RAM坏了:通道:1插槽:0,可能是第二个通道中的第一个内存条。