如何使用智能 PDU ping 局域网设备来诊断误报

如何使用智能 PDU ping 局域网设备来诊断误报

我有一个智能 PDU(Pakedge),它可以 ping 机架中的各种 LAN 设备,如果它们没有响应,它就会对相关电源插座进行电源循环以重新启动设备,它还会向我发送电子邮件警报。

我可以采取什么安全保护措施来阻止误报的出现,例如网络交换机断电后每个设备都会“看起来离线”/冻结到 PDU?

更新 有些答案正确地提到,强制电源循环设备在上述庄园中可能会导致问题,我应该澄清一下,我在上述例子中这样做的设备是机架式 AV 矩阵/放大器,而不是服务器/ NAS

答案1

不要这样做。如果交换机发生故障并且 PDU 为其他设备断电,您已经确定了一个潜在问题。断电会对一些应该正常关闭的系统的完整性造成风险。

相反,设计您需要的高可用性。

  • 定义您的正常运行时间要求。
  • 从最终用户的角度监控这些设备支持的服务。例如,对于 Web 服务器,获取登录页面并跟踪每个 http 状态代码。
  • 当服务可用性不足时,找到中断的根本原因。
  • 当单个组件发生故障时,您可以开始添加冗余。热备用路由器、负载平衡器、集群等。

有些集群实现通过电源循环来“终止节点”。Corosync + Pacemaker(又名 Red Hat 集群套件)可以做到这一点。但它们有一个法定人数的概念,并且只有当大多数节点都同意它已死亡时才会这样做。而且,良好的集群实现需要测试以确保它可靠地进行故障转移,并且只在必要时进行。

答案2

网络交换机是否易于管理?

如果是,您可以考虑这些解决方案。

步骤 1:ping 交换机。如果交换机正在运行,则继续进行其他检查。否则不执行任何操作,并重新开始步骤 1。

如果无法 ping 通交换机,您可以 ping 通邮件服务器或网络上的其他主机。

请注意,添加额外检查有利有弊。在某些情况下,您可能会面临无法关闭 LAN 设备的电源的风险。

相关内容