Dell Precision 3660 因过热而关机

Dell Precision 3660 因过热而关机

当监控我的机器的温度值时,我发现其中一个温度值在重负载下缓慢升高,最终触发紧急关机thermald

我从中读取了热传感器的类型/sys/class/thermal/thermal_zone*/type及其对应的温度/sys/class/thermal/thermal_zone*/temp

但是,我没有在任何地方找到 返回值的定义/sys/class/thermal/thermal_zone*/type。有些看起来非常容易理解,例如TCPU。但对我来说令人反感的是AMBF,我不知道它指的是什么。

有人知道这AMBF代表什么吗?或者在哪里可以找到有关各种类型的热区的一些文档?

编辑:

自问题首次出现以来,我进行了大量搜索,以下是我的发现:

  • 我监测了热传感器并制作了以下图表 机器在紧急停机前承受的压力下的温度(单位:°C) 可以看到,CPU 和内存温度得到了很好的处理(CPU TCase 为 100°C,因此从未超过)。然而,温度AMBF不断上升,直到达到临界值 80°C,并触发紧急关机

  • 浏览 ACPI 表,我终于找到了AMBF代表AMB and Near Fan Temperature (QE3)

  • 我安装了 Windows 10 操作系统,专门用于在那里进行测试。并且:

    1. AMBF据我所知,该条目没有出现在 ACPI 表中
    2. 此问题在 Windows 上不会发生。运行完全相同的测试不会触发任何紧急关机
  • 戴尔最近发布了重要的客户咨询

(戴尔科技内部参考编号 – 戴尔科技 ET004676)

此客户咨询旨在告知您最近发现的特定 Optiplex 和 Precision 系统可能会在 Modern Standby 模式下发生热关机。Dell Technologies 建议立即升级到最新 BIOS,以保持最佳系统性能并避免出现任何问题。

不用说,我已经使用了最新的 BIOS 版本。但我怀疑这个客户咨询可能会解释为什么这个问题不会在 Windows 上出现……所以我尝试在从 ACPI 的角度假装是 Windows 机器的情况下启动我的 Linux 系统,方法是使用acpi_osi=! acpi_osi='Windows 2019'启动命令行。不幸的是,这并没有什么不同。

无论如何,我仍然处于同样的情况,无法将机器用于我购买它的目的。非常欢迎任何进一步的想法。

答案1

据我了解,热区的名称由您的硬件定义。

例如,Intel PC 主板上的标准区域名为:x86_pkg_temp

Raspberry Pi 上的标准区域名为:cpu-thermal

因此,您可能必须查阅内核源代码,了解您的特定硬件所需的驱动程序/模块才能看到这样的内容。

您也许能顺利安装该lm-sensors软件包,然后运行sudo sensors-detect

完成后,它将列出检测到的传感器所需的内核模块。

事实上,我刚刚做了上述操作,看看我发现了什么:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

我很确定该AMBF区域指的是Intel AMB FB-DIMM thermal sensor- 所以在这种情况下可能是内存被烧坏了。

答案2

我最终得到了戴尔支持人员的答复,他们告诉我AMBF可以安全地忽略传感器,并且可以禁用 80°C 时的临界关机功能。

因此我创建了一个/etc/thermald/thermal-conf.xml这样的文件:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

在这里,我决定将hot最初的水平设置为 80°C critical,并将安全网保持critical在 95°C 的水平。

我还安装了最新thermald英特尔的 GitHub 仓库

从那里,我重新运行了我的测试,这里是执行图表:

机器受力时的温度(单位:°C)

如您所见,所有温度仍然得到很好的控制,AMBF现在可以自由超过 80°C。满载时稳定在 92°C 左右,运行结束后缓慢恢复到正常水平。

该问题现已解决并且我的机器已完全正常运行。

相关内容