我正在尝试通过查看 Linux 服务器的 KPI 来创建一个简单的异常警报检测。我想知道如果看到丢包(packet_in 和/或 packet_out),我什么时候应该发出警报。如果我取丢包总数/接收数据包的百分比(对发送的数据包也做同样的处理),然后如果我发现 20% 或更多的数据包被丢包,就发出警报,这有意义吗?
我确实知道丢包(已接收)可能是正常的,不应被视为服务器的问题,但我认为值得标记以报告本地子网或连接的交换机的更大问题。但是,发送的数据包错误可能表明 NIC 卡存在问题,连接设备的速度协商问题。因此标记丢包 % >=20 是否公平?非常感谢专家的回复和一些有用的指示,以进一步微调报告。
答案1
如果您想将网络功能压缩为单一指标(例如,出于监控或绘图目的),我建议使用所谓的 TCP 重传百分比,这与您在问题中建议的非常接近。
当然,你可以通过将 TCP 段重传次数除以发送的 TCP 段总数,然后乘以 100% 来获得该数字。这两个指标应该可以通过 SNMP、sar 和其他工具轻松获得。
在正常情况下,该百分比应该非常接近 0,超过 2% 的任何百分比都很可能出现问题。