服务器挂起 - 重启时数据丢失,事后分析

服务器挂起 - 重启时数据丢失,事后分析

我负责的开发服务器(使用 Debian Squeeze 的 raid 5 上的 ext3)上周末死机了,我被迫重置它,因为 KVM/物理键盘访问没有响应,eth 设备没有响应等。甚至备份过程也没有运行(如图所示,这一次我没有检查确认)

因此,重置后,结果发现,大约 24 小时内应该发生的所有磁盘 IO活动痕迹都完全消失了。日志文件的日期和时间有很大差距。好像写入从未提交到磁盘,似乎没有运行任何进程。

幸运的是,当时正值周末,没有贵重物品丢失,我也不怀疑是遭到了黑客攻击。

我能对此事件做些事后分析,以防止它再次发生?我以前在运行 FreeBSD 的完全不同的机器上看到过这种情况。

我现在正在收集磁盘检查工具 - 但还必须有更多的事情要做!

  • 安装选项:/dev/sda1 on / type ext3 (rw,errors=remount-ro)
  • 核心:Linux dev 2.6.32-5-686-bigmem
  • 磁盘/Inode:13%/3%

答案1

听起来很熟悉。您有 Intel CPU 吗?如果有,BIOS 中的绿色模式设置是什么?您的 BIOS 是最新的吗?

你的 Debian 在启动时应用了什么 Intel-Microcode 补丁?

我遇到过类似的情况,R310 会死机(周末的时候什么事都没有发生)。这个问题通过 Intel 微代码更新(我的情况是 CentOS 5)解决了。

戴尔建议进行 BIOS 升级,进而应用相同的微码更新。

在其他情况下,我发现 Intel-C-sleep-states 是负责任的。

答案2

如果您没有收到内核的 OOPS 消息,无法确定为什么会锁定,那么您将无法进一步排除故障。您可能能够设置 kdump 以保存一些调试输出,以防再次发生这种情况,并且您可以运行 memtest86 或其他硬件诊断程序,但如果没有更多信息,您将无法继续前进。

相关内容