Dell PowerEdge 服务器(R210II 和 R620)何时会由于过热而自动关机?

Dell PowerEdge 服务器(R210II 和 R620)何时会由于过热而自动关机?

我花了很长时间才弄清楚 Dell PowerEdge 服务器(在我的服务器上有一堆带 iDRAC 的 R210II 和 R620)何时以及如何处理过热问题。我不想等待 CPU 自我保护,理想情况下,服务器本身应该在一段时间内处理高温,方法是向操作系统发出自我 IPMI 命令,在达到临界阈值之前关闭电源。例如,在 55C 时,向操作系统发出 IPMI 命令,如果服务器达到 80C,则拔掉插头等...

问题在于戴尔的所有文档都没有明确说明服务器因过热而关闭的时间和方式。

我的问题是戴尔是否支持这样的热管理正常关机,或者它是否在临界温度上有一些小字或不清楚的文档,以至于它会直接拔掉电源插头?戴尔 OpenManage 是否需要支持此功能?

我真的很想避免运行插入各种网络的专用管理服务器(尽量避免通过单个管理点在网络之间进行桥接)来远程管理关机。这将是一个单点故障,并且也像我的服务器一样受到相同的硬编码或不灵活的热条件的影响。

我的 R620 有 iDRAC。我将它们包含在 iDRAC 的远程管理功能中,但目前我很失望 iDRAC 无法处理这个问题。它的热设置仅限于控制风扇速度,糟糕的文档和系统帮助实际上并没有说明何时可以关机。

非常感谢任何实际建议!谢谢。

答案1

我能找到的最好的东西是Spiceworks 论坛上的话题戴尔代表对此作出了回应:

有很多方法可以做到这一点。您说得对,默认情况下,没有启用任何正常关闭选项,但如果达到临界阈值,服务器就会关闭。

您可以在 iDRAC/CMC 中设置警报操作。您可以将其设置为在达到温度警告或临界阈值时关闭电源。您还可以在 OMSA 中设置平台事件或警报操作。OMSA 中还有一个热关机部分。您也可以将其设置为在那里执行操作。此外,您还可以将 OMSA 配置为在触发事件时执行程序。您可以使用该功能在 Windows 中执行关机程序。

警报操作中的“关机”选项是正常关机。我建议您将其设置为在警告阈值时关机。如果您将其配置为临界阈值,它可能会尝试正常关机,然后达到临界限制并执行硬关机,然后才能完成正常关机。

我也读过戴尔官方 PDF关于 OpenManage 中提到的热关机:

Dell OpenManage 服务器管理器 (OMSA) 可让管理员设置服务器应执行紧急热关机的温度阈值。

因此答案似乎是肯定的,戴尔服务器确实支持正常热关机,并且温度是可配置的。您可以使用每台服务器上的 OpenManage Server Administrator 进行这些更改(我相信您可以在服务器运行时进行这些更改)。您不需要安装集中式 OpenManage 管理服务器,尽管它可以简化许多其他管理任务。

:EDIT:
我应该补充一下,这些答案对于戴尔服务器来说是通用的。我没有找到任何特定于您列出的服务器型号的内容。

答案2

感谢 Thomas 挖掘出 OpenManage 文档参考。OMSA 需要安装在某个地方,然后远程或本地用于连接到 BMC,最终设置 IPMI PEF。我发现戴尔制作了一个部署套件,其中基本上包含了 OMSA 用于实现此目的的所有工具。

Dell OpenManage 开发套件可从此处获取:

http://www.dell.com/support/drivers/us/en/19/DriverDetails/Product/poweredge-r720?driverId=65JXF&osCode=RH60&fileId=3196318431&languageCode=EN&categoryId=SM

Linux 版本(似乎只有 64 位,以前有 32 位版本,但我找不到)包含用于安装固件等的可启动映像...但还会获得包含所有可访问部署工具的控制台提示。下载、刻录、将其插入服务器并启动。在提示符下,您可以访问“syscfg”命令。

文档可以在这里找到,但您想要的是参考指南!

http://www.dell.com/support/Manuals/us/en/19/Product/dell-opnmang-dplymnt-toolkit-v4.2

使用 syscfg 命令,您可以设置 PEF,让 BMC 在发出常规 IPMI 警报时触发操作。当前用法如下:

syscfg pcp --filter=tempfail --filteraction=powerdown

现在,当 IPMI 正常报告临时故障警报时,BMC 将发出断电事件。操作系统应通过 APIC 获知该事件,并尝试正常断电。除此之外,内置热阈值将发挥作用。

如果您熟悉 ipmitool,您还可以使用以下命令检查(并可能使用它设置 PEF,但我还没有尝试过)您设置的新 PEF:

ipmitool <options> pef list

如果你搜索“温度”,你会看到类似这样的内容:(无法从控制台进行 C&P)

11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1

断电是新添加的 PEF 动作。

我还没有弄清楚使用戴尔工具设置温度阈值的正确用法,但是我已经使用 ipmitool 了!

ipmitool <options> sensor list | grep Ambient

Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na

然后,您可以根据 ipmitool 传感器阈值参数的使用情况设置新的阈值。下面是我将上限临界阈值更改为 48C 的示例:

ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000

您可以尝试手动发出上临界温度事件,但它似乎只发出事件,而不受 PEF 过滤器操作设置的影响。(发出事件 1 比手动识别传感器等更容易……)

ipmitool <options> event 1

我所做的就是将关机温度设置为 25C,并与同事一起关闭服务器机房空调 5 分钟,同时监控一切。目标服务器在 25C 时就关机了。

相关内容