我有一个 ubuntu 11.04 机器,每天 24 小时运行。最近几天它开始崩溃。
我检查了 kern.log、dmesg……但没有发现任何东西。是否有一个特定的地方记录关机原因(温度或其他原因)?
答案1
你有监控你的服务器吗?
实际上,我的回答是:如果您没有,请为您的服务器添加监控。您至少应该有:cpu 负载、cpu 温度、磁盘使用率、磁盘温度、磁盘 IO、NIC 流量。
只需选择一个您可以轻松安装和维护的即可。以下任何一种或几种组合都可以使用(非完整列表):mrtg、cacti、zenoss、nagios 等;使用适当的插件、snmp 或 rrd 脚本。
发生碰撞后,检查图表寻找线索。
答案2
我有一个 unbuntu 11.04 盒子,全天候运行了大约两年
您确实意识到这是不可能的,对吗?
要么还没到两年,要么你升级了它。
检查升级日志是否存在任何问题。