我们在超微服务器上使用 HP 的智能阵列磁盘控制器 P410。
不幸的是,RAID10 阵列中的硬盘损坏了,我们被迫更换该硬盘。经过 3 天并重启服务器 2 次后,我们仍然看到更换硬盘后的第一条警告消息,内容如下:
警告状态消息((准备好恢复)逻辑驱动器 1(931.5 GB,RAID 1+0))776(准备好恢复)逻辑驱动器 1(931.5 GB,RAID 1+0)正在排队等待重建。
我们担心这个问题,并决定检查固件更新,希望它是最新的,并且没有可用的更新。
值得注意的是,我们也将原来的 RAID 卡更换为同型号的新卡。我们的 raid 设备信息:
Firmware Version 6.40
Number of Ports 2 (Internal only)
Number of Arrays 3
Smart Array P410 in Slot 1
Bus Interface: PCI
Slot: 1
Serial Number: PACCR9SXRCQH
Cache Serial Number: PAAVPID12031NLH
RAID 6 (ADG) Status: Disabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 6.40
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: Not Available
Surface Scan Mode: High
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 15 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Enabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
我们还运行了诊断报告向导,这是我们设备的报告:
https://www.dropbox.com/s/vy6bo07xaraea1a/report-7c62988a-00000874-00000000.zip
这是一个非常令人沮丧的情况,服务器正在运行,但 RAID10 阵列的其中一个硬盘尚未恢复并加入 RAID 10 阵列。
我们应该做什么以及如何解决这个问题?
这也是 HP 命令行中此命令的输出:ctrl all show config detail
https://www.dropbox.com/s/zpadsxcx1emqlvi/ConfigurationsRAID.txt
此致
我通过更换这 3 个硬盘解决了这个问题,如果我遇到这个问题,我会遵循您最近的建议。
更换硬盘后,我使用 RAID CONTROLLER 的 BIOSUPDATE cd 启动了服务器。我删除了该逻辑驱动器并重新创建了它,然后使用 BARE METAL BACKUP 恢复了服务器
一切似乎都很好,我没有在 ARRAY CONFIGURATION UTILITY 中看到任何错误和警告。
但我发现有些不正常。在 ACU 中,当我单击新建逻辑驱动器的更多信息时,有一个部分描述了此驱动器的分区,我看到了这行可疑的内容:分区号:1,大小:100 MB,挂载点:未知
挂载点是驱动器 C,但为什么对于 RAID 来说是未知的?服务器正常启动。
我认为应该修复这个问题。你对此有什么想法吗?
答案1
阅读您的配置后,我看到:
共 8 个磁盘...
- 磁盘 1、2、3、4 位于 RAID 1+0 阵列中。
- 磁盘 5、6 位于 RAID 0 条带中。
- 磁盘 7、8 位于 RAID 0 条带中。
我不会问你为什么二RAID 0 阵列。令人惊讶的是,它们很健康!
看起来磁盘 2 已被替换。它与磁盘 4 配对。磁盘 4 上可能存在读取错误,导致磁盘 2 无法重建。这些是基本的 500GB SATA 磁盘,所有磁盘都有许多公共汽车错误。我实际上没有看到单个驱动器上的明确读/写错误计数……
实际上,您可能只是遇到了 Supermicro 驱动器背板问题。
磁盘 1、2、3 的Write Retries Failed (0x2b)
“上次故障原因”
如果您想了解阵列诊断报告的详细信息,请参见本指南。