CPU 或 RAM 出现硬件错误,该怎么办?

CPU 或 RAM 出现硬件错误,该怎么办?

我有一台服务器,它时不时地向操作系统报告硬件错误,但除此之外运行时没有任何明显的问题。

今天我走过连接着它的监视器时发现了这一点。在此处输入图片描述

有人能告诉我这是什么意思吗?这是我需要担心的事情吗?有没有日志文件可以让我深入研究?几周前,我注意到系统没有检测到其中一个 RAM 棒,它只报告 112 GB 而不是 128 GB。但现在它显示正确了。

更多信息请参见此服务器具有以下主要组件:

  • 超微 MBD-H11DSi-NT-B
  • 2 个 AMD Epyc 7301
  • 128GB 金士顿 Server Premier KSM26RD8/16HAI DDR4-2666 regECC
  • Unraid 作为操作系统

答案1

谁能告诉我这是什么意思?

您有一个需要解决的硬件问题 - 可能是内存。MC15_STATUS[Over|CE在谷歌中输入,第二个结果来自未袭击论坛这也可能对我有帮助。

这是我需要担心的事情吗?

绝对如此!忽略硬件错误会让您的(数据)陷入危险。我会停止生产该系统,而不会花时间在网上询问这是否是我需要担心的问题。

使用类似memtest86之类的工具来测试并诊断问题的位置。

答案2

对于你的情况,我会读取 IPMI BMC 事件日志,例如使用ipmiutil sel。它应该显示有关错误的详细信息,对于我的情况,它甚至显示了故障模块所在的特定内存插槽位置。

相关内容