我们在工作项目中使用 SAN,但从技术上讲,它是否是单点故障存在争议。似乎没有人有任何可靠的数据。
所讨论的 SAN 是一个单一的物理盒子,但具有内部冗余组件(抱歉 - 不确定它具有什么级别的 RAID,但我可以找出答案)。
SAN 的典型 MTBF 是多少?项目经理在项目风险登记册中将其列为“相当常见”——我从未听说过 SAN 出现故障,但我没有任何统计数据来显示这种可能性到底有多大。
有人有有用的信息吗?
答案1
如果不知道具体 SAN 是什么,也不知道它是如何配置和管理的,那么这个问题的任何答案都只是猜测。我这样说有两个原因:
有些 SAN 比其他的要好。我们有一台古老的 EMC CX500,它已经生产了 7 年,没有出过一次问题。我们有一台 Dell MD3000i,它一直有问题。一分钱一分货。
即使是最好的 SAN,如果管理或配置不当,也会导致正常运行时间变短。我曾见过一个愚蠢的管理员在一个月内两次导致价值 200 万美元的 EMC Symmetrix 出现故障。在我们聘请他之前,它连续运行了近四年,没有出现任何问题。
答案2
这真的一点也不常见,事实上我想说这几乎和整个房间断电一样常见——如果它们的配置和维护正确,断电是导致整个 SAN 盒损坏的唯一真正原因。
也就是说,您需要确保它们由两个独立的 UPS 供电,具有双控制器、双交换机、不同路由的光纤,并且您规划了机架/阵列布局以应对整个机架的损失。如果您这样做,那么您的覆盖范围几乎与没有第二个站点时一样广。
答案3
自今年年初以来,我们遇到了各种各样的麻烦,以至于“下一个可用维护窗口”成了 SAN 故障的委婉说法。如果你听听销售人员的说法,他们都是可靠的。实际上,你没有在投入生产之前对 SAN 进行严格测试的专业知识,因此在需求旺盛的时候暴露你的配置问题只能靠命运之箭了。
与实际的磁盘驱动器和其他硬件相比,极其复杂的 SAN 软件或配置故障是一个未知数。这最终意味着您可以根据需要添加尽可能多的物理冗余,但由于它们都运行相同的有缺陷的软件,所以仍然会存在单点故障。
尽管如此,自从我们为了打固件补丁而把整个系统拆下来之后,我们的运行似乎顺畅多了。我们的 SAN 修复总结报告让我担心 SAN 仍然有太多的奇思妙想。
答案4
正如其他人指出的那样,正确配置和规范的存储后端(冗余控制器、电源、交换机等)发生故障并不常见。我真诚地要求 PM 详细讨论将其评为常见风险背后的想法。
从技术上讲,将“单点故障”记录为风险评估的一部分始终是值得的,但关于 HA 配置中的完全冗余存储是否代表“单点故障”,需要进行认真的讨论。这可能是也可能不是,这取决于您的组织和应用程序。如果是单点故障,还值得讨论整个数据中心服务中断的故障场景(因为冗余的 HA SAN 不太可能完全故障,而其他一切都保持正常运行)。
处理这些情况的成本相当高昂……首先是冗余数据中心,然后是地理上延伸的结构、多个完全冗余的 SAN、存储部分的“实时复制”。需要这些东西的场景和应用程序并不常见。
这只是我的个人经历:我遇到过导致孤立问题的固件和控制器错误。在一个罕见的情况下,我甚至遇到了一个错误,导致主动-主动对中的一个控制器转储并触发故障转移。这并没有导致停机。
我听说过一些噩梦般的情况,例如控制器裂脑或导致整个阵列崩溃的类似情况,但这种情况很少见,而且永远无法确定这不是由于人为错误或配置错误造成的。(人为错误和配置错误是巨大的问题......我并不是要淡化它们......但它们并不是与单个 SAN 相同意义上的“spof”。)