我们有一台配备 P410 RAID 卡的 DL180 G6 服务器。该服务器具有以下三个 RAID 阵列。
4x2TB-RAID 10
4x2TB-RAID 10
2x2TB-RAID 1
2x2TB HD 配置为三个阵列的热备用。
以下是 ESXCLI 的相关输出
插槽 1 中的智能阵列 P410
Bus Interface: PCI
Slot: 1
Serial Number: PACCR9VYJKGQ
Cache Serial Number: PAAVP9VYJCYN
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 2.72
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Number of Ports: 2 Internal only
Driver Name: HP HPSA
Driver Version: 6.0.0
PCI Address (Domain:Bus:Device.Function): 0000:06:00.0
Host Serial Number: USE626N2XD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
Secondary Boot Volume: None
阵列 A(SATA,未使用空间:0 MB)
logicaldrive 1 (3.6 TB, RAID 1+0, OK)
physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK)
physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK)
physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK)
physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK)
physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)
阵列 B(SATA,未使用空间:0 MB)
logicaldrive 2 (3.6 TB, RAID 1+0, OK)
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK)
physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)
阵列 C(SATA,未使用空间:0 MB)
logicaldrive 3 (1.8 TB, RAID 1, OK)
physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK)
physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK)
physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)
现在在 ESXI 中我们会时不时地收到以下错误。
由于连接问题,无法访问卷 5456cb3e-4fbdb59c-a37a- d8d385644ec0 (datastore2)。正在尝试恢复
请记住,它会影响所有三个阵列同一时间几秒钟后,所有三个阵列都恢复了。据了解,所有驱动器都连接到 P410 RAID 卡上的一个端口。您认为使用两个端口可以提高性能并可能消除这个重复出现的问题吗?
目前我们已经尝试了所有软件解决方案,包括更新固件(更新至 6.64)。还有其他选择吗?
更新 1
如上所述,两个备用驱动器配置为所有三个阵列的备用驱动器。我从所有阵列中移除备用驱动器约 15 分钟,错误停止了。现在我为第一个阵列配置了第一个备用驱动器,为第二个阵列配置了第二个备用驱动器,以查看错误是否再次出现。
更新 2
重新连接备用设备导致错误再次出现,并且影响所有三个阵列。因此,我将逐个移除备用设备以进一步解决此问题。这可能是此处描述的已知问题:http://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ESXi5x-HPSA-P410i-WARNING-LinScsi-SCSILinuxAbortCommands-1843/td-p/6818369. 祈祷好运。
答案1
问题中发布的两个更新和进一步的故障排除使我们找到了问题的真正答案。我们发现它与 ESXI 中 P410 RAID 卡的驱动程序有关。我们降级到 .60 版驱动程序,可从http://h20564.www2.hpe.com/hpsc/swd/public/detail?swItemId=MTX_d18033ac346f468c92062ce127问题得到解决。
请记住,包括版本 .114、.116 和最近发布的 .118 在内的所有最新驱动程序均无法正常工作。因此,这是解决该问题的唯一软件解决方案,除非您的问题与用户 @ewwhite 描述的硬件有关。
请记住,仅当您在 DL180G6 服务器中使用带有 P410 卡的备用驱动器时才会出现此问题。我还看到过帖子说其他 HP 服务器也会出现此问题,因此您可以在这些服务器上尝试 .60 版本的驱动程序,看看它是否能解决您的问题。
面对此问题时,您可能还会看到磁盘延迟定期激增,而服务器上却没有任何相应的读/写负载,下图可以更好地解释这一点:
上图中,红点表示备用件安装时的周期性峰值。绿点表示备用件被移除时的周期。
如上图所示,延迟峰值与任何相应的读/写负载无关,并且是周期性的。在我们的案例中,这些峰值恰好相隔五分钟。一旦备用驱动器被移除,峰值就会停止。
要降级到 .60 版本的驱动程序,请在正常关闭虚拟机后将您的机器置于维护模式,然后发出以下命令
cd /tmp
wget http://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p964549618/v97400/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib
esxcli software vib install -v /tmp/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib
之后重新启动服务器。希望这对某些人有帮助。当 HP 发布适用于 P410 的 HPSA 驱动程序的稳定版本时,我将更新此答案,该版本不会导致备用驱动器出现此问题。
答案2
这可能是背板或背板扩展器的问题。也有可能是电缆的问题。可能RAID 控制器。
您使用的 DL180 G6 可能是 12 托架 3.5 英寸单元,并通过单条 4 通道 SAS SFF-8087 电缆连接到 Smart Array P410。
升级固件是您应该做的第一件事。自从更新控制器固件以来,您是否遇到过同样的问题?您可能还想升级磁盘固件,以防万一。
但看到该服务器的设计完全取决于 SAS 背板,并且所有磁盘同时受到影响的事实,您正在查看可能需要维修或更换的连接问题。