在我的系统(16GB RAM、6 核、RAID0 PCIe SSD)上进行大量磁盘 IO 时,系统停止运行并最终崩溃。正常的日常磁盘 IO 没有问题,只是长时间的读/写(例如数据库重新索引)会出现问题。
一些调查显示 dmesg 输出,例如:
[...] ata2: exception Emask 0x10 SAct 0x0 SErr 0x90202 action 0xe frozen
[...] ata1: SError: { RecovComm Persist PHYRdyChg 10B8B }
[...] ata1: hard resetting link
[...] ata4: irq_stat 0x00400000, PHY RDY changed
以及连接到系统的各种SATA 设备的大量其他日志。当进行大量磁盘 IO 时,任何其他输入都会使系统停止(移动鼠标等)5-30 秒。
鉴于错误出现在多个设备上,并且当从其他设备提供输入/导致非磁盘中断时,系统似乎很粗略......我将假设主板。温度很好,memcheck 通过。崩溃是完全软锁定,而不是内核崩溃或关闭。
这看起来合理吗?我还可以做些什么来检查吗?
编辑:Fedora20,870A-UD3主板上的家庭服务器,Intel 910 PCIe SSD + OCZ vertex + Intel X25
Edit2:工作站位于家庭办公室中,负责处理诸如在 Postgresql 中搅动数据之类的事务。一切都非常无聊,没有什么值得再次进行近距离投票的。
答案1
这可能是系统板、布线或电源问题。如果您的 SATA 驱动器、OCZ 和 Intel X25 连接到主板,它们可能就是罪魁祸首。没有迹象表明 Intel 910 受到影响。
答案2
SATA 电缆损坏。我已经看到这个错误好几次了。https://bbs.archlinux.org/viewtopic.php?id=129401