30 分钟后确定 SSD 故障原因

30 分钟后确定 SSD 故障原因

我们在一家本地托管公司的塔式服务器中安装了一块 64GB 的 SSD 硬盘。该硬盘和输入系统大约在六个月前组装完成,都是全新的零件。

直到这个周末,SSD/系统都运行正常。我们运行的是 CentOS 6.2

完美启动后,系统可使用大约 20-30 分钟(与时间没有真正的一致性),然后驱动器开始出现异常。

库开始提示无法加载,ssh 开始拒绝公钥登录。关机开始提示“输入/输出错误”。一些程序开始指示驱动器是只读的。

64GB 中仅使用了 25GB。

我找不到任何错误来表明发生了什么。我尝试从驱动器上的实时 CD 运行 fsck,结果没有显示任何问题,并且大多数情况下启动都正常。有一次启动时显示“无法找到操作系统”,但这种情况不再发生了。

我可以在哪里找到有关发生情况的日志?我还需要进行其他磁盘检查吗?这似乎是一个可修复的问题,而且我不需要新的驱动器。

更新:

重启服务器后,我启用了 SMART。经过 1 小时的正常运行(运行的服务是 httpd、mysql,但流量很少或没有流量),突然一切都停止了。在正常运行的那个小时内,它对智能健康检查的响应为 PASS。一个小时后,我再次尝试(通过 webmin),现在它显示 SMART 已禁用。

硬盘现在出现了我之前见过的相同问题 - 尝试大多数命令都显示“输入/输出错误”。

运行智能健康检查现在显示:

Log Sense failed, IE page [scsi response fails sanity test]

我该怎么做才能找出导致它在随机一段时间后失败的原因?它运行正常 30-60 分钟,然后开始出现这种异常。

更新 2

有人要求我尝试 dmesg,结果如下:http://www.pastie.org/private/hk7jfhxilj7ypy828irna。其他人建议我不要假设是驱动器的问题,而可能是驱动器控制器的问题。我不明白如何确定错误是控制器还是驱动器的问题——除了尝试不同的驱动器。如果我必须购买替换主板或驱动器,我需要知道哪个先出现故障。

运行 fsck 显示:

fsck from util-linux-ng 2.17.2
e2fsck 1.41.12 (17-May-2010)
fsck.ext4: Superblock invalid, trying backup blocks...
fsck.ext4: Bad magic number in super-block while trying to open /dev/mapper/vg_192-lv_root

The superblock could not be read or does not describe a correct ext2
filesystem.  If the device is valid and it really contains an ext2
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
    e2fsck -b 8193 <device>

答案1

SSD 非常脆弱。Jeff Atwood 列出了一些故障率这里。它们会在没有任何警告的情况下发生故障并将您的数据变成遥远的记忆。

看起来是时候进行 RMA 并从备份中恢复了。不过这应该不是问题,因为您不是在单个非 RAID 磁盘上运行生产服务器,对吧?而且您肯定有最近的备份可以用来恢复,对吧?

正确的?

答案2

如果您的硬盘有聪明的统计数据(几乎肯定会有)使用 SMART 实用程序来筛选所有可用的消息和统计数据。答案可能就在那里,或者至少是一些关于下一步该去哪里的提示。


编辑

考虑一下,你可能误导了你的怀疑。你的驱动器控制器可能是问题的一部分。查看它收集了哪些指标以及它创建了哪些日志。暂时把它放在嫌疑人圈子里。在被证明无罪之前,IT 中的一切都是有罪的。

答案3

我的家用电脑在 64Gb Crucial/Micron M4 SSD 上运行 EXT-4 文件系统时也出现了同样的故障。我在设备上运行了 smartctl -a,它顺利通过了所有测试。我从 systemrescue cd 启动了服务器,然后重新运行了 smartctl,它检测到了已知会导致问题的旧固件 v 0009,并提供了修复。我的固件现在处于版本 070H,问题已经消失。所以,我的情况的解决方案是访问关键网站并下载一个小型可启动 iso 映像来更新我的 SSD 固件。不再出现输入/输出错误

相关内容