我们的主机托管供应商为我们提供了 APCAP7932他们为我们提供了几个机柜,其中包括 0U PDU。我们在这些 PDU 的网络管理方面遇到了很多麻烦,我将在下面进行描述。我们将搬到同一个数据中心的机柜空间,并将为机柜购买自己的 PDU。我想从远程管理的角度确定哪些企业级 PDU 性能可靠,这样我们就不会最终购买一些纸面上看起来不错但使用起来却很糟糕的东西。
我们的 colo 提供的 PDU 配置为支持通过 SSL Web UI 和 telnet 进行管理。我们已将所有 PDU 上的固件更新为截至 2011 年 11 月的最新版本。它们可靠地响应 ping,我们没有理由怀疑存在网络层问题。但是,我们经常遇到所有 PDU 中嵌入式管理主机的挂起、超时、断开连接和普遍不可用的情况。我们偶尔必须重新启动 PDU 上的微控制器才能从偶尔出现的硬故障中恢复。插座保持通电(谢天谢地),但管理方面非常不可靠,以至于它已成为操作的负担 - 我们不能确信我们可以进入 PDU 来对主机进行电源循环(如果需要)。我们有 3 个 PDU,它们都表现出相同的行为。
有许多企业级 0U 交换式 PDU 制造商,它们都具有类似的功能。如果我查看我们当前 PDU 的数据表,它们似乎很合适 - 只有通过使用这些 PDU 的痛苦经历,我们才知道要避免使用它们。我想避免选择纸面上看起来不错但有类似可靠性问题的 PDU。
其他人对交换式 PDU 有何经验?这种程度的不稳定是正常的吗?
答案1
您所描述的情况有点不正常。但是,您如何确定可用性?您是否有一个监控解决方案不断 ping/探测设备?
过去我曾开放网络管理系统设置为从我的 APC UPS 和 PDU 设备收集。一些检查,特别是 http、ftp 和 telnet 探测,导致管理接口超时,造成 30-60 秒的中断。也许这就是你所看到的。
不过,我从来没有遇到过 SNMP 收集问题。因此,如果是这种情况,请尝试减少对管理界面的访问,只集中精力收集您需要的信息。
APC 接口上我的 OpenNMS 可用性图表的摘录