我有Ubuntu 9.10专用服务器(非托管)并且它在几周前开始死亡。
在我请求硬件检查之前,我想确认服务器上没有发生某种软件问题。
服务器无人管理,所以我需要自己做所有事情。
服务器托管几个 WP 网站和一个 VBulettin 论坛。
这是我的 php 信息 http://pastebin.com/hSQVQBMR
服务器已经*完美*运行了大约一年,在此期间,没有重启过一次,但现在它开始突然挂起。
它总是发生在大约同一时间(欧洲中部时间凌晨 4-6 点),也就是我们在线访问者最多的时候。
但奇怪的是,这种情况以前从未发生过,一年多来效果都很好。
所以我的问题是——如何调查?
我从第一天起就设置了 Cacti - 并且没有任何不寻常的活动。此外,每次它挂起时都会发生在负载和 mysql 查询聊天(以及所有其他与负载相关的图表)的下坡上
我没有插座数量图表,但是今天我添加了它。
最让我担心的是,每次我请求重启时(过去 7 天内大约 4 次),支持人员都会告诉我,他正在黑屏(所以我猜这不是负载~50的情况)
我应该查看哪些日志文件?
我应该在这些文件中寻找哪些条目?
答案1
答案2
如果尚未设置 CPU 温度监控,请设置。如果问题是过热,那么您可能会在发生故障前看到温度急剧上升。
/var/log/kern.log 值得一看。但是,如果系统崩溃,在真正重要的时候,它可能无法写入任何内容。
如果您可以访问控制台 - 或者更好的是,使用串行控制台并留下一些记录写入其中的所有内容的东西(我为此使用“屏幕”) - 那么您可能能够看到内核崩溃时所说的内容。
答案3
当一段时间内无事可做时,它会“死机”吗?那么省电可能就是问题所在。尝试完全禁用它,或者至少阻止它将 CPU 或核心切换到 C 睡眠状态。
我有一堆戴尔服务器,如果在 BIOS 省电功能中启用 C 状态,就会出现最奇怪的错误。
您知道正在使用什么类型的硬件吗(品牌、型号、CPU - 可能是英特尔)?