我有一个智能 PDU(Pakedge),它可以 ping 机架中的各种 LAN 设备,如果它们没有响应,它就会对相关电源插座进行电源循环以重新启动设备,它还会向我发送电子邮件警报。
我可以采取什么安全保护措施来阻止误报的出现,例如网络交换机断电后每个设备都会“看起来离线”/冻结到 PDU?
更新 有些答案正确地提到,强制电源循环设备在上述庄园中可能会导致问题,我应该澄清一下,我在上述例子中这样做的设备是机架式 AV 矩阵/放大器,而不是服务器/ NAS
答案1
不要这样做。如果交换机发生故障并且 PDU 为其他设备断电,您已经确定了一个潜在问题。断电会对一些应该正常关闭的系统的完整性造成风险。
相反,设计您需要的高可用性。
- 定义您的正常运行时间要求。
- 从最终用户的角度监控这些设备支持的服务。例如,对于 Web 服务器,获取登录页面并跟踪每个 http 状态代码。
- 当服务可用性不足时,找到中断的根本原因。
- 当单个组件发生故障时,您可以开始添加冗余。热备用路由器、负载平衡器、集群等。
有些集群实现通过电源循环来“终止节点”。Corosync + Pacemaker(又名 Red Hat 集群套件)可以做到这一点。但它们有一个法定人数的概念,并且只有当大多数节点都同意它已死亡时才会这样做。而且,良好的集群实现需要测试以确保它可靠地进行故障转移,并且只在必要时进行。
答案2
网络交换机是否易于管理?
如果是,您可以考虑这些解决方案。
步骤 1:ping 交换机。如果交换机正在运行,则继续进行其他检查。否则不执行任何操作,并重新开始步骤 1。
如果无法 ping 通交换机,您可以 ping 通邮件服务器或网络上的其他主机。
请注意,添加额外检查有利有弊。在某些情况下,您可能会面临无法关闭 LAN 设备的电源的风险。