我有 Supermicro 服务器,每台服务器都有 12 个内存模块和IPMI
接口。当我memtest86
在所有服务器上运行时,我检测到一些损坏的内存(通道 X 插槽 Y/Z)。另外,我可以在 IPMI 日志中找到一些信息 - 主板上的内存已损坏(例如 P2 - C1)。嗯,好吧,如果我可以物理访问服务器,我可以关闭它并更换损坏的记忆棒。
但我需要的是:当通过 IPMI 检测到内存损坏并且我无法物理访问服务器(因为服务器距离服务器有半天的时间),而无需重新启动服务器,我需要停用内存条/插槽/单元这样服务器就不会(再次)崩溃。我知道memmap
如果我知道损坏的记忆棒的损坏单元的索引,我就可以使用。但是我可以从IPMI日志或Linux中获取索引吗?或者,如果我知道哪个记忆棒已损坏,我可以在 Linux 或 IPMI 中停用整个记忆棒或插槽吗?