每天我会发现一两次服务器被无缘无故关闭了。
信息和我到目前为止所做的事情:
- 下没有任何报告
/var/log/
。只有正常的服务器活动,然后当我手动启动机器时才会出现启动日志。 sensors
始终给我提供在问题发生的所有日子里保持正常的正常温度值:http://pastebin.com/gk8JuPCK- 通过物理检查 PSU(Thermaltake)和塔式机箱的其他部件,我发现没有什么值得担心的。内部非常干净(无尘),所有风扇都运转正常。
- 在 BIOS 设置中,当 CPU 达到 60c 时会发出警报,但这太高了。还请注意,设置处于“警报”状态,没有“关闭”设置,我记得其他 BIOS 中也有这样的设置。
- 我已经多次对整个内存进行内存测试,没有出现任何问题。另外,我不认为这是内存问题,因为我从未发现服务器处于停止或崩溃状态,而是始终处于关闭状态。
- 该服务器连接到 UPS,该 UPS 也为其他类似服务器供电。其他服务器从未出现过此问题。我甚至交换了两台服务器之间的电源线和 UPS 输出,但同一台服务器再次出现此问题。所以这不是 UPS 的问题。
我下一步应该看哪里?
服务器信息:
AMD 64 Processor 3500+
2 x 512MB
mainly runs SVN and DNS. No X sessions take place and no users are logged in.
猫/ proc /版本
Linux version 2.6.26-1-686 (Debian 2.6.26-13) ([email protected]) (gcc version 4.1.3 20080704 (prerelease) (Debian 4.1.2-24)) #1 SMP Sat Jan 10 18:29:31 UTC 2009
答案1
我现在能想到而您没有提到的唯一原因是:
- 系统中的看门狗设置错误(BIOS/HW 级别或内核/用户空间),
- 硬件问题(我认为是电源故障)——在一台客户 HP 塔式服务器上也遇到过同样的问题
答案2
尝试查找 sysstat。sysstat 是一种定期收集系统数据(例如 CPU、RAM、i/o 使用情况)的工具。它的输出也是解决崩溃情况时的重要信息来源。请考虑安装 sysstat 软件包并使用以下命令启用其服务
chkconfig boot.sysstat on
/etc/init.d/boot.sysstat start