如何最好地监控/记录 eth0 上的问题?

如何最好地监控/记录 eth0 上的问题?

我手动配置了一个电子邮件服务器 - 非常简单的配置,我没有做任何复杂的网络配置。我只是通过 iptables 打开了相关的端口。

但是,每隔 10-15 天,eth0 就会消失,所有网络都会停止。默认日志没有给出任何有关发生了什么的提示。当这种情况发生时,我唯一能做的就是通过 KVM 访问重新启动服务器(似乎也是我能修复的唯一方法)。

问题是,我可以安装哪些监控/日志工具来查看哪里出了问题?在向托管公司报告硬件问题之前,我想尽我所能。

我正在运行 CentOS 6 服务器。

答案1

如果它不在 /var/log/messages 或内核的 dmesg 中,那么我不确定哪个实用程序会为您提供解决问题的信息。我会尝试在 /etc/rsyslog.conf 中将日志记录设置为调试,查找包含 /var/log/messages 的行并将信息更改为调试。

根据我的经验,CentOS 中 eth0 消失与 NetworkManager 有关。请确保禁用 networkmanager,然后启用网络。我曾看到这种情况发生在我通过创建/修改手动配置网络/etc/sysconfig/network-scripts/ifcfg-eth0但忘记了chkconfig networkmanager off之后chkconfig network on

下次发生故障时,最好的办法可能是通过 KVM 实时排除故障。我可能会尝试的另一件事是循环运行类似ethtool每 30 - 60 秒获取链接状态的操作,以获取故障发生的时间范围。当您有时间戳或非常小的时间范围需要关注时,阅读日志会容易得多。:)

最后,如果确实发生了某些事情,/etc/sysconfig/network-scripts/ifcfg-eth0那么您可以创建并审核策略来监视该文件是否有任何更改。

答案2

仅供将来参考,我终于发现了问题所在。

这实际上是由于 CentOS 内核的 timesync tx 控制寄存器未按预期设置所致。

参考: https://groups.google.com/forum/#!topic/springdale-users/bBqrE545sYo http://bugs.centos.org/view.php?id=6810

最后,在我升级到新服务器后,这个问题就自行解决了。

相关内容