几天前,我管理的一台服务器在正常运行了 400 多天后出现了崩溃。我重新启动了它,它工作了大约两天,然后它遇到了“oops: cpu#n stuck for 61s”的错误,n 的值各不相同。再次重新启动后,今天又出现了原来的内核崩溃。跟踪如下(手动重新输入,因此跳过了地址):
Kernel panic - not syncing: Fatal exception in interrupt
Pid: 0, comm: swapper Tainted: G D 2.6.32-41-server #89-Ubuntu
Call Trace:
<IRQ> panic
oops_end
die
do_general_protection
? consume_skb
general_protection
? put_page
skb_release_data
__kfree_skb
consume_skb
dev_kfree_skb_any
sky2_tx_complete
sky2_status_intr
? __queue_work
sky2_poll
net_rx_action
__do_softirq
? handle_IRQ_event
call_softirq
do_softirq
irq_exit
do_IRQ
ret_from_intr
<EOI> ? mwait_idle
? atomic_notifier_call_chain
? cpu_idle
? start_secondary
RIP put_page
操作系统是 Ubuntu 10.04.4 x64。由于它一直运行正常,在出现崩溃之前没有发生任何变化,所以我在想是不是硬件出了问题。在上次重启之前,我进行了一次完整的内存测试,结果通过了,还进行了一次完整的 fsck 以确保万无一失。由于崩溃与 sky2(marvell 网络控制器)有关,所以可能是网卡问题?我是不是忽略了什么?考虑到在出现错误之间一切都运行正常(日志中没有错误,没有丢包,没有减速)。
感谢您的指点
答案1
可能是硬件问题。风扇堵塞或故障、温度过高、RAM 损坏、CPU 损坏、电源故障、主板接近使用寿命...