我有一台 Linux 服务器,它记录了以下 mcelog 错误:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 20
MISC 800000
TIME 1476167381 Tue Oct 11 06:29:41 2016
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction
Request-did-not-timeout
QPI:
Intel QPI physical layer detected a QPI in-band reset but aborted
initialization
STATUS 8800004000200e0f MCGSTATUS 0
MCGCAP 7000c16 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 63
我可以在英特尔系统编程文档和 github 上的监控代码中找到对此错误的引用,但没有解释原因、影响和建议的操作。我已阅读最新的微代码更新说明以查看是否提到它,但找不到任何内容。
该错误可能是一次性的“宇宙辐射型”错误或需要忽略的“非事件”,但有人可以提供一些现实世界的系统管理员级指导来详细说明吗?
谢谢
答案1
我认为这是一对 E5-2640v4 处理器(末尾的 v#事宜)。
您需要检查处理器勘误表(搜索特定处理器的“规格更新”文档),因为许多处理器型号上都有关于 QPI 问题的几个勘误表……
好的:http://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/xeon-e5-v4-spec-update.pdf 没有列出会导致该 QPI 行为的任何勘误表。您可能遇到了硬件缺陷,或者您遇到了未列出的勘误表(比您想象的更常见)。
然而,Supermicro 在保持其 BIOS 更新方面做得非常糟糕(他们仍然在其支持页面上发表关于永不更新 BIOS 的离谱声明),因此我们可以有把握地假设它将具有过时的平台固件套件组件,例如微码更新和平台设置字节码。
因此,您仍然可以希望固件更新能有所帮助。正如 Supermicro 所预料的那样,即使该主板的最新 BIOS 的微码更新也太旧了,低于运行 Linux 时建议使用的最低版本(您至少需要修订版 0x0b00001d,来自 2016-06-06)。请安装适合您的发行版的微码更新包(必须基于英特尔的版本 20160714 或更高版本),这可能会有所帮助。
因为 Supermicro 支持通常非常擅长解决由他们的服务器/工作站固件管理生命周期笑话引起的问题。直接向他们报告问题,并请求带有更新固件(处理器微码、芯片组、ME/AMT/TPM 固件和平台设置组件)的测试版 BIOS。但是,如果他们认为这更有可能是硬件缺陷,他们可能会告诉您 RMA 主板。