我在 Ubuntu 的 LVM 上有一个软件 RAID 5 分区(实际上是桌面版,但我将其用作服务器)。我一直在向其中同步大量数据,但计算机却死机了,我需要按“重置”。
所以我认为是 rsync。但我决定尝试 dd if=/dev/zero of=/path/to/raid5,果然,计算机锁定了。在同一台机器上对 JBOD 分区执行了相同的 dd,它没有崩溃。
假设有一个干净的 RAID5 分区、三核处理器、2GB 内存、6GB 交换空间,这可能是什么原因造成的?
编辑:我已排除内存问题;我进行了 8 小时的内存测试,没有出现崩溃。2011
年 4 月 26 日编辑:我已排除 Ubuntu 问题;错误发生在 Debian 6 稳定版中。它要么是硬件问题,要么是上游错误。
答案1
是的,测试你的 RAM。尝试更严格地测试普通 IO。除此之外,尝试获取可重复的场景并在 launchpad.net 上打开错误
答案2
假设您正在通过 LVM 使用软件 RAID5(您没有说明提供 R5 的是什么),这可能是内核错误的迹象。R5 需要奇偶校验计算,这会消耗 CPU 资源。如果这个数字足够高,内核可能会遇到一些无法解决的争用问题。不过,这只是猜测。
答案3
RAID 阵列是服务器中的所有内容(包括/
等等)还是单独的?如果是单独的,在发生硬挂之前,您是否可以在日志中看到任何内容?此外,您能否确认这是一次完全挂起 - 您是否可以通过网络 ping 机器等等?
写入 JBOD 阵列和 RAID5 阵列之间的区别在于,在 RAID5 的情况下,驱动器访问更均匀,并且将使用更多 CPU 时间(用于奇偶校验计算)。如果其中一个驱动器出现问题,我会认为它会从阵列中掉出来,而不是机器挂起,除非问题是驱动器控制器掉下来并带走机器的 I/O 控制器。我在这里要做的第一件事是进行完整的内存测试,并确保 CPU 冷却正常工作(RAID5 的奇偶校验计算本身不会对现代 CPU 造成任何重大负载,但如果它已经接近故障,可能会使其崩溃)。