我们的 LVM 重置设备出现错误,在此期间一直影响着我们的 Linux 服务器。
kernel: hpsa 0000:02:00.0: scsi 0:1:0:1: resetting logical Direct-Access HP LOGICAL VOLUME RAID-1(+0) SSDSmartPathCap- En- Exp=1
kernel: hpsa 0000:02:00.0: device is ready.
低于当前 SCSI 磁盘。
[0:0:0:0] storage HP P420i 6.68 -
[0:1:0:0] disk HP LOGICAL VOLUME 6.68 /dev/sda
[0:1:0:1] disk HP LOGICAL VOLUME 6.68 /dev/sdb
[1:0:0:0] tape HP Ultrium 4-SCSI U57D /dev/st0
[2:0:0:0] cd/dvd hp DVD A DU8D4SH MHE4 /dev/sr0
另外通过检查磁盘,我们没有发现任何硬件故障。
Smart Array P420i in Slot 0 (Embedded)
Note: Predictive Spare Activation Mode is enabled, physical drives that are in predictive failure state will not be available for use as data or spare drives.
(sn: 00143803620FFA0)
Port Name: 1I
Port Name: 2I
Internal Drive Cage at Port 1I, Box 1, OK
Internal Drive Cage at Port 2I, Box 1, OK array A (SAS, Unused Space: 0 MB)
logicaldrive 1 (279.4 GB, RAID 1, OK)
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 300 GB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 300 GB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 300 GB, OK, spare)
array B (SAS, Unused Space: 0 MB)
logicaldrive 2 (558.7 GB, RAID 1+0, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 300 GB, OK)
physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 300 GB, OK)
physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 300 GB, OK)
physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SAS, 300 GB, OK)
physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SAS, 300 GB, OK, spare)
SEP (Vendor ID PMCSIERA, Model SRCv8x6G) 380 (WWID: 500143803620FFAF)
仅在其中一台服务器上发现了此错误,而其他服务器则没有遇到同样的问题。
我正在尝试找到一种方法来检测问题修复,因为所有主题都会出现硬件故障,而我没有发现任何 HP 硬件故障
答案1
这与LVM无关。它与硬件 RAID 控制器创建的逻辑磁盘有关。不幸的是,HP 选择了一个听起来类似于 LVM 术语的名称。
第二条日志消息(“设备已就绪”)指示错误状态已自动清除。
您的硬件 RAID 控制器是 HP(E) Smart Array P420i。它似乎有固件版本 6.68,其中有几个已知问题已在更高版本的固件版本中修复:
2017年11月起最新固件版本为8.32,可以在这里下载。最新版本主要修复问题描述如下:
由于 RAID 堆栈线程正在轮询队列以获取基本代码固件返回的完成情况,系统可能会由于活锁情况而停止响应,而没有锁定代码
这看起来很可能就是您所看到的问题。因此,将 RAID 控制器固件更新到最新的可用版本可能会解决根本原因。阅读安装说明在开始更新之前。
当磁盘控制器停止响应时,无论控制器类型如何,Linux 内核都会首先自动尝试重置它......在您的情况下,它似乎已成功解除 RAID 控制器的阻塞并防止系统崩溃。换句话说,这是一个有效的解决方法;然而,依赖于此显然并不理想,尤其是当这种情况一次又一次发生时。
请注意,HPE 表示 P420i 是退役产品,即不再作为新产品生产和销售。您当前的固件版本于 2015 年 10 月发布,因此 RAID 控制器现在似乎已有 8 年左右的历史。大型企业会认真考虑仅以老化为由淘汰该年代的任何关键 x86 服务器,因为供应商对此类旧服务器的支持变得极其昂贵和/或不像当前硬件那样有效,因为及时提供备件变得困难。
如果您有大量类似的服务器,可以从其中获取备件,那么您也许能够自行处理故障。否则,我希望你有良好的备份和可行的计划什么时候(不是如果)服务器的某些组件最终会失败。