我们的一台 RedHat Linux 服务器突然停止响应了几分钟。在这几分钟内,日志文件(在 /var/log/ - messages 等下)或应用程序日志文件中完全没有任何条目。我还能检查什么?
在此期间,用户无法访问该应用程序,我也无法 ssh 访问它。我记不清是否尝试过 ping。
之后一切都开始按预期进行!
答案1
您是否针对此框运行任何类型的趋势或监控?如果没有,可能很难诊断。此行为可能是由多种因素引起的。以下是我脑海中的一些想法:
- 瞬态网络故障(广播风暴、路由环路、生成树拓扑变化等)
- IO 争用(是否有东西消耗了服务器的所有 RAM,导致其大量进入交换区?)
- 服务器重启了吗?
展望未来,我强烈建议您购买类似穆宁设置。使用 Munin,您将能够轻松监控磁盘 IO、内存使用情况、CPU 使用情况、进程数、网络流量等。有了这些信息,解决此类问题就容易多了。或者,您可以安装和设置sar
,它会收集大量相同的数据,但会将其记录在文本文件中,您可以在事后检查这些文件。
答案2
根据您的描述,我首先要查看的是 dmesg(“dmesg | tail”)。如果某个硬件锁定了,而 /var/log/messages 中没有内容,那么十有八九,它会被放入 dmesg 中。
当您重新登录时,您是否注意到了平均负载是多少?
答案3
你说的是“在那之后”。过了多久才恢复?1 分钟?2 分钟?几秒?
网络上是否有挂载的文件系统(NFS、AFS 等)?这让我想起了这样一种情况:你有一个挂载的网络文件系统,然后网络突然断线了。然后你有一个文件系统正在等待超时。
另外,您是否连接了另一台机器?如果是,您是否记录了 arp 事务?您可能能够发现是否与邻居断开了连接。