服务器每隔几天就会死机 - 如何调查

服务器每隔几天就会死机 - 如何调查

我有Ubuntu 9.10专用服务器(非托管)并且它在几周前开始死亡。

在我请求硬件检查之前,我想确认服务器上没有发生某种软件问题。

服务器无人管理,所以我需要自己做所有事情。

服务器托管几个 WP 网站和一个 VBulettin 论坛。

这是我的 php 信息 http://pastebin.com/hSQVQBMR

服务器已经*完美*运行了大约一年,在此期间,没有重启过一次,但现在它开始突然挂起。

它总是发生在大约同一时间(欧洲中部时间凌晨 4-6 点),也就是我们在线访问者最多的时候。

但奇怪的是,这种情况以前从未发生过,一年多来效果都很好。

所以我的问题是——如何调查?

我从第一天起就设置了 Cacti - 并且没有任何不寻常的活动。此外,每次它挂起时都会发生在负载和 mysql 查询聊天(以及所有其他与负载相关的图表)的下坡上

我没有插座数量图表,但是今天我添加了它。

最让我担心的是,每次我请求重启时(过去 7 天内大约 4 次),支持人员都会告诉我,他正在黑屏(所以我猜这不是负载~50的情况)

我应该查看哪些日志文件?

我应该在这些文件中寻找哪些条目?

答案1

首先在 /var/logs/messages 中查找内存错误和硬盘错误。

该服务器位于数据中心吗?供电正常吗?电力波动可能会导致服务器崩溃,如果电力不足,还可能导致服务器无法启动。

您还可以测试您的硬件,尤其是您的记忆硬盘

答案2

如果尚未设置 CPU 温度监控,请设置。如果问题是过热,那么您可能会在发生故障前看到温度急剧上升。

/var/log/kern.log 值得一看。但是,如果系统崩溃,在真正重要的时候,它可能无法写入任何内容。

如果您可以访问控制台 - 或者更好的是,使用串行控制台并留下一些记录写入其中的所有内容的东西(我为此使用“屏幕”) - 那么您可能能够看到内核崩溃时所说的内容。

答案3

当一段时间内无事可做时,它会“死机”吗?那么省电可能就是问题所在。尝试完全禁用它,或者至少阻止它将 CPU 或核心切换到 C 睡眠状态。

我有一堆戴尔服务器,如果在 BIOS 省电功能中启用 C 状态,就会出现最奇怪的错误。

您知道正在使用什么类型的硬件吗(品牌、型号、CPU - 可能是英特尔)?

相关内容