我正在为现有的中等规模数据中心部署实施监控系统。
到目前为止,我只涉及到监控方程的主机/应用程序方面,但我注意到各种主机上以太网错误的数量令人担忧。对我来说,警报是每台主机每天 3 或 4 个(有些没有)。当我查看交换机的 SNMP 计数器时,我再次看到计数器上有很多错误,但我还没有绘制这些错误的图表(目前还没有)。
在我之前的环境中,有更多端口,除了那些存在双工不匹配等实际问题的主机外,我的错误率大约为零。
这些接口都没有饱和;它们通过千兆链路以大约 40-50 兆字节/秒的速度传输。
我的直觉是,如果一切正常,任何界面都不应该出现任何错误,但我担心如果我为了解决这些问题而挑起争端,我只会疏远所有相信“它运行良好;它一直这样运转了很多年”的人。
有人能提供一些关于何时对以太网错误发出警报的好故事/研究/统计数据吗?或者有什么可以表明少量错误会如何影响 iSCSI 卷?
谢谢!
答案1
TCP/IP 可以很好地处理错误。单个错误将被重新传输,并且一切通常都会顺利。
每天出现 3-4 个错误是令人担忧的,因为这表明可能存在问题(电缆、端口等),但本身并不值得担心。单一错误可能是电磁干扰或位置极差的亚原子事件等任何原因造成的。在这两种情况下,对网络的影响都可以忽略不计。
如果这会成为一个政治问题,那就让它去吧(但要密切关注)。如果我开始看到错误发生得更频繁,或者至少占总数据包的更高百分比,我才会发脾气。0.1% 可能是一个很好的阈值,但这完全取决于你将伸出的脖子有多坚固。