内核:日志提交 I/O 错误

内核:日志提交 I/O 错误

我的 Dell 1950 服务器出现了一些问题。我正在安装 RHEL 4.6 以及 Oracle 和其他一些软件。

我在 ssh 会话中随机收到一条错误消息,提示“内核:日志提交 I/O 错误”,并且在连接到服务器的监视器上,我看到滚动出现的错误,提示“start_transaction 中的 EXT3-fs 错误(设备 sda5):日志已中止”。

这种情况发生过几次,但从未在安装过程中的同一时刻发生。实际上,最后一次系统启动并运行,我只是想将数据库导入 Oracle。

这种情况在多个硬盘上都发生过,所以我很确定这不是问题所在。这让我认为 RAID 控制器出了问题。

你们有什么感想?

** 更新 **

很确定是硬盘坏了。我把另一个硬盘放进服务器,它已经运行了大约 48 小时,没有出现问题。

答案1

我之前见过这些错误,但不是在安装过程中。

这意味着驱动器出现足够多的错误,操作系统将其置于只读模式。如果您能找到完整的日志,那么在您看到的完全故障错误之前,可能有一些 I/O 错误会重试并起作用。提到了实际的块。

这是存储系统错误。肯定是 RAID 卡、RAID 阵列中的驱动器、卡与驱动器之间的电缆、驱动器连接的背板、RAID 卡插入的插槽、硬盘驱动器的电源,或者 CPU 与实际存储块之间的其他东西。

答案2

我想到三种可能性:

  1. 存在内存问题(它们经常导致“随机”崩溃)。如果您的电脑中有 ECC 内存,那么显然发生这种情况的可能性较小。

  2. 总线出了点问题。几年前,我遇到了同样的问题,Tyan 双 Opteron 主板上的 APIC 控制器坏了。其他日志条目也暗示了这一点,但大部分症状是磁盘驱动器随机损坏,并自动以只读方式重新安装。就我而言,我知道这与磁盘无关,因为它是一个外部 FC RAID 盒,而且没有问题。

  3. RAID 控制器是双层的。

这是我考虑问题的顺序。

答案3

可能是像您说的那样,RAID 控制器出现问题(如果有,请尝试使用备用控制器)。可能是控制器的驱动程序(如果有,请检查替代驱动程序,即使性能较差,最好也有一个参考点)。可能是内核(虽然在 RHEL 中可能性较小,但它已经过充分测试。)可能是坏的 RAM 弄乱了块缓存。

不过,根据看似随机的错误行为,硬件问题是最可能的原因。

答案4

尝试:

立即关机-rF

相关内容