SUSE 机器挂起可能是由于 Reiserfs 分区问题

SUSE 机器挂起可能是由于 Reiserfs 分区问题

我有一台 SUSE 机器,配备 8GB RAM 和 Reiserfs 文件系统,运行顺畅,已超过 4 年,没有出现过任何操作系统和硬件相关问题。该机器服务于几个流量低到中等的(数据库驱动)站点,导致 i/o、cpu 和内存利用率较低。

最近,这台机器在 10 天内死机了 3 次。这种情况发生的时间并不固定(例如,并非每次都在 00:00 点)。CPU、内存和硬盘严重未得到充分利用,而且我已证实,在停机时这些设备也未得到充分利用,因此站点不承担责任。

每次盒子挂起时,它只能响应 ping,但其他服务都不可用(ssh、www 等)。然后我重新启动盒子,一切恢复正常(直到下一次停止)。

在所有 3 次事件中,我都在 /var/log/boot.msg 中发现(可能发生在停止之前和停止期间)Filesystem is NOT clean,然后Replaying journal似乎做了很多工作,但从未达到 100%:

Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal
Blocks (total/free): 786432/540858 by 4096 bytes
Filesystem is NOT clean
Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374

Replaying journal: |                                        |  0.1%  1 trans
Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385

Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396
Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407

Replaying journal: |                                        /  0.5%  4 trans
Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417

Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428
Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439

Replaying journal: |                                        -  1.0%  7 trans

第一次事件发生时,该比例上升至 33%,第三次事件发生时,该比例上升至 58%。

系统停止运行是否与 reiserfs 有关?
您知道下一步该查看哪里吗?

多谢

答案1

听起来您的硬盘驱动器坏了(或更多)。如果在正常使用过程中发现磁盘上有坏扇区……系统会立即尝试恢复数据并将磁盘标记为不干净。它已经使用了 4 年左右,很可能存在磁盘问题。大多数台式机磁盘驱动器只有 1 年或 3 年保修期……而服务器级驱动器通常只有 3-5 年保修期。您可能还想考虑运行 GRC 的 spinrite 之类的实用程序,它在扫描问题和刷新磁盘方面做得非常出色。(它非常擅长修复所有不是由盘片物理损坏导致的磁盘问题)

相关内容