AMD Tctl 边界阈值不合理

AMD Tctl 边界阈值不合理

我一直遇到 BMC/IPMI 事件日志记录 CPU 过热错误(在某些情况下很严重)的问题。我担心这些主要是误报,而且默认BMC 上设置的传感器阈值错误。

硬件:RS924A-E6/RS8 配备 4 个 AMD 6376 CPU - AMD CPU 提供温度控制裕度(Tctl Margin)而不是原始温度读数。我对Tctl 边距0..2550代表 CPU 最高工作温度(69 Celsius在本例中)的反向刻度。本质上,我们越接近0,CPU 的物理温度就越高 - 更多信息这里

数据下面的两个表格提供了有关阈值和已注册事件的信息。

传感器阈值:

ID | Name             | Type         | Reading    | Units       | Lower NR   | Lower C    | Lower NC   | Upper NC   | Upper C    | Upper NR   | Event
1  | CPU1 Tctl Margin | Temperature  | 26.00      | unspecified | -10.00     | -5.00      | 0.00       | 127.00     | 127.00     | 127.00     | 'OK'
2  | CPU2 Tctl Margin | Temperature  | 26.00      | unspecified | -10.00     | -5.00      | 0.00       | 127.00     | 127.00     | 127.00     | 'OK'

事件日志:

ID | Date        | Time     | Name             | Type         | Event
1  | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature  | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2  | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature  | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified

正如您在上表中看到的,CPU1通常会遭受上部不可回收温度错误。我感到困惑的是,这个错误发生在传感器读数24(或31)但临界点127。是不是因为 BMC 误解了传感器读数,或者阈值错误?我该怎么做才能解决这个问题?

答案1

我认为您可能误解了文本。“变低”表示温度高于 127,但现在低于该值。根据您上面列出的阈值,这似乎是正确的。

我假设也没有“升高”事件。主板可能根本没有报告这些事件,因为它们应该是“正常的”。

相关内容