非易失性缓存 RAID 控制器:针对 NVCACHE 故障有哪些类型的保护?

非易失性缓存 RAID 控制器:针对 NVCACHE 故障有哪些类型的保护?

电池备用(BBU)模型:

  • 管理员使用 BBU 启用写回缓存
  • 写入缓存到 RAID 控制器的 RAM 中(主要的性能优势)
  • 断电时电池可保存未提交和缓存的数据(可靠性)

如果我断电并在一两天内回来,我的数据应该是完整的并且没有损坏。

缺点是,如果电池没电或电量低,或者即使处于重新学习周期(放电/充电循环以确保电池健康),控制器也会恢复到写入模式,性能会受到影响。此外,重新学习周期通常是按计划自动进行的,这可能会或可能不会在交通繁忙时发生。因此,如果担心的话,必须手动禁用它并手动安排在非工作时间。无论哪种方式都很烦人。

NV 缓存具有足够电荷的电容器,可以将任何未提交到磁盘的数据提交到闪存。这不仅在较长时间的丢失情况下更能存活,而且您不必担心电池没电、磨损或重新学习。

所有这些对我来说听起来都很棒。但对我来说不太好的是闪存模块可能存在问题。如果完全坏了怎么办?如果只是部分坏了怎么办?边缘有点损坏?重新学习周期可以判断电池等简单部件是否出现故障,但是否有类似的过程来验证闪存是否正常工作?我只是更信任电池,不管电池有什么缺点。

我知道卡的 RAM 可能会出现故障,卡本身也可能会出现故障 - 但这是常见的情况。

如果你还没猜到,是的,我经历过令我震惊的大量闪存/SSD/等故障:)

答案1

你想太多了。

当然,这在一定程度上取决于制造商的具体实施,但在部署了数千台 HP ProLiant 服务器 10 多年后,我经历了数百次 RAID 控制器电池故障。我更换了损坏的电池,因为我知道,如果没有健康的电池,突然断电或系统崩溃会导致一定程度的数据损坏。

我很高兴看到近年来转向闪存支持的写入缓存。HP ProLiant 系统上的闪存单元是连接到控制器 RAM 模块的单独超级电容器。我想它们可能会发生故障。我还没有遇到过。HP Smart Array RAID 控制器可以设置为保持写入缓存启用,而不管电池/超级电容器的健康状况如何。这假定设施可以防止突然断电。您仍然需要担心应用程序稳定性和系统崩溃。

听起来你指的是戴尔 PERC 控制器及其NVCACHE 实现。这是类似的设计。戴尔解释说他们的指南...

4.5.1 Non-Volatile Cache
Dell PERC controllers with non-volatile (NV) cache use the standard battery as contained in the Dell 
PERC controllers with a battery back-up unit (BBU). The difference is in battery implementation:

- The battery in the BBU offering retains the data in cache in the event of a power cycle for a 
guaranteed period of 24 hours (typically up to 72 hours).

- The battery in the NV cache offering will transfer the data from cache to flash in the event of 
a power cycle, where the data will be retained for up to ten years.

考虑一下您的应用程序和存储访问模式。您是否真的能够以足够快的速度写入阵列,并且无法有效地将大量数据刷新到磁盘?您的应用程序是否无法从崩溃或突然重启中恢复?

如果您确实关心应用程序的可用性,请重点保护设施电源(健康的UPS +发电机)并使用冗余组件(电源,风扇等)增强您的系统。

编辑:

我正在研究一款带有闪存支持的写缓存的 HP Smart Array P410 RAID 控制器。健康 LED用于闪存模块和较旧的外部电池(HP 设备不进行重新学习循环)。

专用的电池微控制器持续监控 HP Smart Array 电池组是否有损坏迹象,包括电池端子开路、电池部分短路、充电超时和过度放电情况。

对于超级电容器,其健康状况受到监控,但 LED 指示灯位于闪存模块上。RAM 具有 ECC 纠错功能,因此这也是另一层防御。两者都通过 SNMP 陷阱报告给主机服务器,并可通过诊断实用程序查看。

HP 的智能阵列技术指南

超级电容器子组件由两个串联配置的 35 法拉 2.7V 电容器组成,可提供高达 5.4V 的 17 法拉电流。充电器将超级电容器保持在 4.8V,提供完成备份操作所需的电量,同时延长超级电容器的使用寿命。充电器监控超级电容器的健康状况,并激活 FBWC 模块上的 LED 指示灯以警告即将发生的故障。超级电容器模块使用与 HP BBWC 中使用的 HP 650 mAh P 系列电池相同的外形尺寸和外壳。

我的观点是,制造商已经设计了解决方案,使闪存缓存解决方案能够发挥作用,并成为旧式电池技术的可行替代品。提供适当的监控设施符合他们的利益。

需要注意的是,请检查 HP 最新一代闪存模块的视觉指示器。您可以确信所有这些检查都集成到了控制器的警报和诊断系统中。

在此处输入图片描述

答案2

据推测,如果 RAID 控制器上的 BIOS 在测试期间出现故障,服务器本身将无法启动。它会检查板载内存,就像主服务器 BIOS 检查自己的内存一样。如果您想了解详细信息,最好的办法是致电 RAID 卡制造商。

相关内容