我在远程位置有几台 Ubuntu Server 8.04 机器。每隔几个月左右,其中一台就会停止响应并需要关闭电源。从我的日志文件来看,似乎我的所有进程都运行良好,直到某个时候一切都停止了。
我怀疑是硬件问题,但我甚至不知道如何开始查明问题所在。是否有任何诊断工具或技术可以追踪此类问题?
我知道这是一个相当普遍的问题,但我希望得到一个普遍的答案。
答案1
连接另一台机器并配置串行控制台以获取出现的所有内核消息等。如果是内核崩溃或其他灾难性问题,您会在那里看到它。还建议监控温度并运行内存测试,特别是如果控制台在车轮掉落之前没有显示任何异常。
答案2
记忆测试将是第一个呼叫点,尽管如果可以的话,下次崩溃时请中心插入控制台。如果内核正在运行,它应该会向屏幕输出一些内容。
答案3
我以前也遇到过类似的问题,后来发现是热气引起的。改善空气循环并增加一两个风扇很有帮助。
另外,请确保您的磁盘上已启用 SMART,并查看其中是否有磁盘已到达使用寿命。
您可能想要安装 munin 来监视它们并查看发生了什么。
答案4
对于实际上可以确定起作用的东西,给出的信息太少了。
想知道您如何定义“停止”响应吗?是只有 ssh 停止响应还是其他服务停止响应?如果控制台仍在响应,您知道吗?
机器重启后恢复在线时日志文件中有任何痕迹吗?
无论如何,有几个选项可以帮助您继续收集信息:
- 在串行线路上启用 getty,如果您买不起串行服务器,请交叉连接机器之间的串行线。如果无法通过网络访问一台机器,您可以尝试通过串行访问。
- 安装监控软件并从 lmsensors、smart tools tec 获取状态。
- 将系统日志发送到远程机器。