我们有一个 HPC 设置,包含四个 OSS 服务器(OSS1 到 OSS4)和两个 MDS 节点(MDS1 到 MDS2)。它一直运行到昨天,没有任何问题。今天早上我发现 OSS4 处于关闭状态。我已验证 OSS3 日志,发现它已进入隔离状态,我再次打开 OSS4,现在它正在运行
在 OSS4 日志中,我看到了一些“无法读取”的错误,如下所示
Feb 26 04:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
Feb 26 04:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
Feb 26 05:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
Feb 26 05:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
Feb 26 06:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
Feb 26 06:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
Feb 26 07:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
/dev/sda
是本地硬盘。节点隔离是否可能是由于此错误造成的?运行 e2fsck 会解决此问题吗?
在此我附上了/var/log/messages
OSS3 和 OSS4,有人可以分析日志文件并帮助我做什么吗?
答案1
该磁盘是破碎的。希望它位于 RAID1 对中。拔出损坏的那个,放入新的,让它重新同步。
将损坏的那个送回制造商进行 RMA。
希望您的系统具有监控功能,可以向供应商发出问题警报,他们甚至可能已经向您发送了新磁盘。
不管怎样,它都很破旧。更换它。