关于 Linux 中 I/O 统计的问题

关于 Linux 中 I/O 统计的问题

在我们的一台实验室机器上,我突然发现一个磁盘 i/o 错误。由于我们的应用程序处理大量数据,机器运行了一段时间,对磁盘进行了大量的 i/o。我的机器是硬件突袭的,即 RAID5。我从我的朋友(一位 RHCE 专业人士)那里听说,巨大的 i/o 也会导致磁盘崩溃。这是真的吗?

另外,我还有一个问题,关于在我的 RAID5 机器中单个磁盘发生故障时如何恢复数据。我可以恢复文件系统中的数据吗?

如果是这样,有人可以指导我恢复由于磁盘 i/o 错误而丢失的数据吗?

答案1

如果我的 RAID5 机器中有一个磁盘发生故障,如何恢复我的数据。我可以恢复文件系统中的数据吗?

这正是 RAID5 能够承受的故障。如果 RAID5 阵列中的一个磁盘发生故障,则不会丢失任何数据,并且系统会继续工作,就像什么都没发生过一样(阵列被称为“降级”)。

有了替换磁盘后,只需将其插入、格式化并重新添加到阵列即可。操作系统将负责重新同步新磁盘,很快您就会再次拥有一个健康的 RAID 阵列。

我听我的朋友(一位 RHCE 专业人士)说,大容量 I/O 也会导致磁盘崩溃。这是真的吗?

是也不是。很明显,对硬盘施加更大的压力会增加故障的可能性。但在很多情况下,这些故障是制造缺陷,而不是结果压力——所以这是时间的问题当缺陷表现为错误时。对硬盘施加压力只会更早地触发缺陷。

事实证明,在高利用率的环境中,第一年还能存活下来的磁盘也很多从长远来看更可靠。如果你想了解更多关于硬盘故障率的信息,请参阅谷歌的论文大量磁盘驱动器的故障趋势 (PDF)

相关内容