Linux RAID10 设备上未恢复的读取错误

Linux RAID10 设备上未恢复的读取错误

我有一台运行 Ubuntu 14.04 的 HP DL380p Gen8,尽管其他方面看起来一切正常,但显然它的 RAID10 文件系统已经出现了近一个月的问题。我在dmesg/ syslog/etc 中看到了很多这样的消息,不过 Read 行中的十六进制值确实略有不同。

Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb]  
Nov 18 08:09:25 server03 kernel: Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb]  
Nov 18 08:09:25 server03 kernel: Sense Key : Medium Error [current] 
Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb]  
Nov 18 08:09:25 server03 kernel: Add. Sense: Unrecovered read error
Nov 18 08:09:25 server03 kernel: sd 2:0:0:1: [sdb] CDB: 
Nov 18 08:09:25 server03 kernel: Read(16): 88 00 00 00 00 03 f8 48 f5 38 00 00 00 80 00 00

iLO 和 hpssacli 均报告所有磁盘均正常,文件系统不是只读的。/dev/sdb 设备是使用服务器 RAID 控制器的 RAID10,由 20 x 900 GB 磁盘组成。

这是一个生产服务器,虽然我重新启动过一次以尝试清除这个问题,但是在没有其他明显问题的情况下,我不愿意尝试 fsck 而不尝试确定这些消息的含义。

那么,对于这里可能存在什么问题,您有什么想法吗?

答案1

好的,我将使用常规的故障排除技术来回答,但这是我的免责声明:

  • 我确实不提倡在裸机硬件上运行 Ubuntu;尤其是 HP ProLiant 系统。
  • 当谈到 HP 系统、驱动程序、监控和增值软件时,Ubuntu 的支持生态系统并不存在。
  • HP 固件包不是为 Ubuntu 构建的,所以上帝知道你运行的是哪个版本的固件
  • Ubuntu 往往会引入一些我在商业 Linux 发行版中从未见过的奇怪错误。

请在您的问题或单独的 pastebin 中提供以下内容。

  • 我想要 的输出hpssacli ctrl all show config
  • 我想要 的输出hpssacli ctrl all show config detail
  • df -h请给出和的输出fdisk -l
  • 请发布 的输出lsscsi

由于您使用的是 Ubuntu,因此可能没有安装 HP Management Agents。虽然hpssacli可以对阵列运行状况进行抽查,但该hp-snmp-agents软件包才是提供实际持续监控的。

如果您确实安装了一些 HP Health Agents,请运行hplog -v以提取 IML 日志。


我猜你正在运行的是 HP ProLiant DL380p Gen8 25 托架 SFF 服务器。许多设备尚未打补丁遭受智能阵列控制器和控制器缓存故障。还有一些关键的扩展器背板更新需要在该平台上运行。

答案2

我最终通过卸载并重新创建文件系统解决了这个问题,自从重新启用服务器上的数据库应用程序以来,我没有看到任何错误消息,即使它从其他集群节点重新创建了近 4 TB 的数据。(我想知道这台服务器过去的磁盘替换是否以某种方式导致文件系统损坏。)

相关内容