硬件 RAID 控制器缓存电池故障频率/寿命?

硬件 RAID 控制器缓存电池故障频率/寿命?

我处在一个包含许多超微服务器配备AdaptecLSI MegaRAID硬件 RAID 控制器。这些控制器包含电池供电的缓存模块,有助于提高写入性能并保护传输中的数据。

常见的支持问题是 RAID 控制器电池故障。这会将阵列从回写直写模式。系统运行时写入速度会降低,这显然会对性能产生负面影响。这种情况会持续存在,直到可以建立停机时间窗口来关闭系统并更换电池。

这对我们来说是一个非常常规的手术;几乎每周跨越数千台物理服务器......我们甚至设有充电站来准备替换电池,以便无需充电周期即可进行更换。

也许是因为 HP ProLiant 服务器的历史太悠久了,智能阵列 RAID 控制器但 HP 系统的电池寿命通常为 4-6 年。他们最终在 2009 年左右停止使用 RAID 电池。它们被超级电容器支持的内存模块(闪存支持的写入缓存或 FBWC)取代,不需要更换、处理或漫长的初始充电周期。

由于我发现 Adaptec 和 LSI 控制器电池故障有时会发生在已使用少于12个月,我想知道这在其他环境中是否常见。

如果这种情况很常见,其他大型服务器环境如何处理这种情况?

  • 处理 RAID 电池更换有什么技巧或窍门吗?
  • 是否有任何配置参数可以提供帮助?
  • 这对运营有多大的破坏性你的环境?
  • 底盘冷却不良和温度可能是一个因素吗?
  • 我们做错什么了吗?
  • Dell PERC 控制器由 LSI 制造。Dell 环境是否也存在同样短的电池寿命?

LSI 产品文献概述了使用寿命超过 1 年的新一代电池。 在此处输入图片描述

HP ProLiant DL585 G2 服务器正常运行时间超过 1000 天,并且 RAID 电池运行良好...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

答案1

我怀疑您的 Supermicro 电脑可能出了问题 - 可能是电池组过热了。大多数最新的 LSI 都会通过 MegaCLI 报告温度 - 您可能需要在需要更换的服务器上监控此值。

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

我见过几台配备 LSI BBU 控制器的戴尔和富士通系统,它们都没有每年更换电池组(除非你因深度放电而损坏了电池组)。典型的使用寿命约为 3 至 5 年。

答案2

平均电池寿命应为 3-5 年。别忘了基于闪存的 FBWC 也会失效。我不知道为什么/如何,但我们经常在 HP 服务器上更换它们。我的电池寿命应该比电池长,但我没有我们各个服务器的统计数据。

防止电池故障和电池学习影响的标准方法是使用多块电池。HP 存储(如 HP EVA)就是这样做的。您有 2 块热插拔电池,当其中一块电池电量不足或被更换时,控制器会使用剩下的一块电池。我不确定是否可以将多块电池连接到 SmartArray,但hpacucli diag输出表明应该支持它:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

答案3

根据我安装的数百台 IBM 版本的 LSI 平台的经验,电池的平均使用寿命仅为 2 年,超级电容器也没有什么改善,其中一些问题可以通过固件更新进行修复,但 LSI 一直没有做好。在头两年里,我遇到过大约 75% 的超级电容器故障。

相关内容