重置逻辑直接访问错误 || RHEL 7.x

重置逻辑直接访问错误 || RHEL 7.x

我们的 LVM 重置设备出现错误,在此期间一直影响着我们的 Linux 服务器。

kernel: hpsa 0000:02:00.0: scsi 0:1:0:1: resetting logical Direct-Access HP LOGICAL VOLUME RAID-1(+0) SSDSmartPathCap- En- Exp=1

kernel: hpsa 0000:02:00.0: device is ready. 

低于当前 SCSI 磁盘。

[0:0:0:0]    storage HP       P420i            6.68  -
[0:1:0:0]    disk    HP       LOGICAL VOLUME   6.68  /dev/sda
[0:1:0:1]    disk    HP       LOGICAL VOLUME   6.68  /dev/sdb
[1:0:0:0]    tape    HP       Ultrium 4-SCSI   U57D  /dev/st0
[2:0:0:0]    cd/dvd  hp       DVD A  DU8D4SH   MHE4  /dev/sr0

另外通过检查磁盘,我们没有发现任何硬件故障。

Smart Array P420i in Slot 0 (Embedded)

Note: Predictive Spare Activation Mode is enabled, physical drives that are in predictive failure state will not be available for use as data or spare drives.

(sn: 00143803620FFA0)

Port Name: 1I

Port Name: 2I

Internal Drive Cage at Port 1I, Box 1, OK

Internal Drive Cage at Port 2I, Box 1, OK array A (SAS, Unused Space: 0 MB)

  logicaldrive 1 (279.4 GB, RAID 1, OK)

  physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 300 GB, OK)
  physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 300 GB, OK)
  physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 300 GB, OK, spare)
array B (SAS, Unused Space: 0 MB)

  logicaldrive 2 (558.7 GB, RAID 1+0, OK)

  physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 300 GB, OK)
  physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 300 GB, OK)
  physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 300 GB, OK)
  physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SAS, 300 GB, OK)
  physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SAS, 300 GB, OK, spare)
SEP (Vendor ID PMCSIERA, Model SRCv8x6G) 380 (WWID: 500143803620FFAF)

仅在其中一台服务器上发现了此错误,而其他服务器则没有遇到同样的问题。

我正在尝试找到一种方法来检测问题修复,因为所有主题都会出现硬件故障,而我没有发现任何 HP 硬件故障

答案1

这与LVM无关。它与硬件 RAID 控制器创建的逻辑磁盘有关。不幸的是,HP 选择了一个听起来类似于 LVM 术语的名称。

第二条日志消息(“设备已就绪”)指示错误状态已自动清除。

您的硬件 RAID 控制器是 HP(E) Smart Array P420i。它似乎有固件版本 6.68,其中有几个已知问题已在更高版本的固件版本中修复:

https://support.hpe.com/connect/s/softwaredetails?language=en_US&softwareId=MTX_42b6aa58956a438aa85bd73d0f&tab=revisionHistory

2017年11月起最新固件版本为8.32,可以在这里下载。最新版本主要修复问题描述如下:

由于 RAID 堆栈线程正在轮询队列以获取基本代码固件返回的完成情况,系统可能会由于活锁情况而停止响应,而没有锁定代码

这看起来很可能就是您所看到的问题。因此,将 RAID 控制器固件更新到最新的可用版本可能会解决根本原因。阅读安装说明在开始更新之前。

当磁盘控制器停止响应时,无论控制器类型如何,Linux 内核都会首先自动尝试重置它......在您的情况下,它似乎已成功解除 RAID 控制器的阻塞并防止系统崩溃。换句话说,这是一个有效的解决方法;然而,依赖于此显然并不理想,尤其是当这种情况一次又一次发生时。


请注意,HPE 表示 P420i 是退役产品,即不再作为新产品生产和销售。您当前的固件版本于 2015 年 10 月发布,因此 RAID 控制器现在似乎已有 8 年左右的历史。大型企业会认真考虑仅以老化为由淘汰该年代的任何关键 x86 服务器,因为供应商对此类旧服务器的支持变得极其昂贵和/或不像当前硬件那样有效,因为及时提供备件变得困难。

如果您有大量类似的服务器,可以从其中获取备件,那么您也许能够自行处理故障。否则,我希望你有良好的备份和可行的计划什么时候(不是如果)服务器的某些组件最终会失败。

相关内容