我一直遇到 BMC/IPMI 事件日志记录 CPU 过热错误(在某些情况下很严重)的问题。我担心这些主要是误报,而且默认BMC 上设置的传感器阈值错误。
硬件:RS924A-E6/RS8 配备 4 个 AMD 6376 CPU - AMD CPU 提供温度控制裕度(Tctl Margin)而不是原始温度读数。我对Tctl 边距是0..255
与0
代表 CPU 最高工作温度(69 Celsius
在本例中)的反向刻度。本质上,我们越接近0
,CPU 的物理温度就越高 - 更多信息这里。
数据: 下面的两个表格提供了有关阈值和已注册事件的信息。
传感器阈值:
ID | Name | Type | Reading | Units | Lower NR | Lower C | Lower NC | Upper NC | Upper C | Upper NR | Event
1 | CPU1 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
2 | CPU2 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
事件日志:
ID | Date | Time | Name | Type | Event
1 | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2 | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified
正如您在上表中看到的,CPU1
通常会遭受上部不可回收温度错误。我感到困惑的是,这个错误发生在传感器读数的24
(或31
)但临界点是127
。是不是因为 BMC 误解了传感器读数,或者阈值错误?我该怎么做才能解决这个问题?
答案1
我认为您可能误解了文本。“变低”表示温度高于 127,但现在低于该值。根据您上面列出的阈值,这似乎是正确的。
我假设也没有“升高”事件。主板可能根本没有报告这些事件,因为它们应该是“正常的”。