当监控我的机器的温度值时,我发现其中一个温度值在重负载下缓慢升高,最终触发紧急关机thermald
。
我从中读取了热传感器的类型/sys/class/thermal/thermal_zone*/type
及其对应的温度/sys/class/thermal/thermal_zone*/temp
但是,我没有在任何地方找到 返回值的定义/sys/class/thermal/thermal_zone*/type
。有些看起来非常容易理解,例如TCPU
。但对我来说令人反感的是AMBF
,我不知道它指的是什么。
有人知道这AMBF
代表什么吗?或者在哪里可以找到有关各种类型的热区的一些文档?
编辑:
自问题首次出现以来,我进行了大量搜索,以下是我的发现:
我监测了热传感器并制作了以下图表 可以看到,CPU 和内存温度得到了很好的处理(CPU TCase 为 100°C,因此从未超过)。然而,温度
AMBF
不断上升,直到达到临界值 80°C,并触发紧急关机浏览 ACPI 表,我终于找到了
AMBF
代表AMB and Near Fan Temperature (QE3)
我安装了 Windows 10 操作系统,专门用于在那里进行测试。并且:
AMBF
据我所知,该条目没有出现在 ACPI 表中- 此问题在 Windows 上不会发生。运行完全相同的测试不会触发任何紧急关机
戴尔最近发布了重要的客户咨询
(戴尔科技内部参考编号 – 戴尔科技 ET004676)
此客户咨询旨在告知您最近发现的特定 Optiplex 和 Precision 系统可能会在 Modern Standby 模式下发生热关机。Dell Technologies 建议立即升级到最新 BIOS,以保持最佳系统性能并避免出现任何问题。
不用说,我已经使用了最新的 BIOS 版本。但我怀疑这个客户咨询可能会解释为什么这个问题不会在 Windows 上出现……所以我尝试在从 ACPI 的角度假装是 Windows 机器的情况下启动我的 Linux 系统,方法是使用acpi_osi=! acpi_osi='Windows 2019'
启动命令行。不幸的是,这并没有什么不同。
无论如何,我仍然处于同样的情况,无法将机器用于我购买它的目的。非常欢迎任何进一步的想法。
答案1
据我了解,热区的名称由您的硬件定义。
例如,Intel PC 主板上的标准区域名为:x86_pkg_temp
Raspberry Pi 上的标准区域名为:cpu-thermal
因此,您可能必须查阅内核源代码,了解您的特定硬件所需的驱动程序/模块才能看到这样的内容。
您也许能顺利安装该lm-sensors
软件包,然后运行sudo sensors-detect
。
完成后,它将列出检测到的传感器所需的内核模块。
事实上,我刚刚做了上述操作,看看我发现了什么:
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
我很确定该AMBF
区域指的是Intel AMB FB-DIMM thermal sensor
- 所以在这种情况下可能是内存被烧坏了。
答案2
我最终得到了戴尔支持人员的答复,他们告诉我AMBF
可以安全地忽略传感器,并且可以禁用 80°C 时的临界关机功能。
因此我创建了一个/etc/thermald/thermal-conf.xml
这样的文件:
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
在这里,我决定将hot
最初的水平设置为 80°C critical
,并将安全网保持critical
在 95°C 的水平。
我还安装了最新thermald
的英特尔的 GitHub 仓库
从那里,我重新运行了我的测试,这里是执行图表:
如您所见,所有温度仍然得到很好的控制,AMBF
现在可以自由超过 80°C。满载时稳定在 92°C 左右,运行结束后缓慢恢复到正常水平。
该问题现已解决并且我的机器已完全正常运行。