SAN 典型 MTBF

Question 1

如果不知道具体 SAN 是什么，也不知道它是如何配置和管理的，那么这个问题的任何答案都只是猜测。我这样说有两个原因：

有些 SAN 比其他的要好。我们有一台古老的 EMC CX500，它已经生产了 7 年，没有出过一次问题。我们有一台 Dell MD3000i，它一直有问题。一分钱一分货。
即使是最好的 SAN，如果管理或配置不当，也会导致正常运行时间变短。我曾见过一个愚蠢的管理员在一个月内两次导致价值 200 万美元的 EMC Symmetrix 出现故障。在我们聘请他之前，它连续运行了近四年，没有出现任何问题。

Answer

如果不知道具体 SAN 是什么，也不知道它是如何配置和管理的，那么这个问题的任何答案都只是猜测。我这样说有两个原因：

有些 SAN 比其他的要好。我们有一台古老的 EMC CX500，它已经生产了 7 年，没有出过一次问题。我们有一台 Dell MD3000i，它一直有问题。一分钱一分货。
即使是最好的 SAN，如果管理或配置不当，也会导致正常运行时间变短。我曾见过一个愚蠢的管理员在一个月内两次导致价值 200 万美元的 EMC Symmetrix 出现故障。在我们聘请他之前，它连续运行了近四年，没有出现任何问题。

Question 2

这真的一点也不常见，事实上我想说这几乎和整个房间断电一样常见——如果它们的配置和维护正确，断电是导致整个 SAN 盒损坏的唯一真正原因。

也就是说，您需要确保它们由两个独立的 UPS 供电，具有双控制器、双交换机、不同路由的光纤，并且您规划了机架/阵列布局以应对整个机架的损失。如果您这样做，那么您的覆盖范围几乎与没有第二个站点时一样广。

Answer

这真的一点也不常见，事实上我想说这几乎和整个房间断电一样常见——如果它们的配置和维护正确，断电是导致整个 SAN 盒损坏的唯一真正原因。

也就是说，您需要确保它们由两个独立的 UPS 供电，具有双控制器、双交换机、不同路由的光纤，并且您规划了机架/阵列布局以应对整个机架的损失。如果您这样做，那么您的覆盖范围几乎与没有第二个站点时一样广。

Question 3

自今年年初以来，我们遇到了各种各样的麻烦，以至于“下一个可用维护窗口”成了 SAN 故障的委婉说法。如果你听听销售人员的说法，他们都是可靠的。实际上，你没有在投入生产之前对 SAN 进行严格测试的专业知识，因此在需求旺盛的时候暴露你的配置问题只能靠命运之箭了。

与实际的磁盘驱动器和其他硬件相比，极其复杂的 SAN 软件或配置故障是一个未知数。这最终意味着您可以根据需要添加尽可能多的物理冗余，但由于它们都运行相同的有缺陷的软件，所以仍然会存在单点故障。

尽管如此，自从我们为了打固件补丁而把整个系统拆下来之后，我们的运行似乎顺畅多了。我们的 SAN 修复总结报告让我担心 SAN 仍然有太多的奇思妙想。

Answer

自今年年初以来，我们遇到了各种各样的麻烦，以至于“下一个可用维护窗口”成了 SAN 故障的委婉说法。如果你听听销售人员的说法，他们都是可靠的。实际上，你没有在投入生产之前对 SAN 进行严格测试的专业知识，因此在需求旺盛的时候暴露你的配置问题只能靠命运之箭了。

与实际的磁盘驱动器和其他硬件相比，极其复杂的 SAN 软件或配置故障是一个未知数。这最终意味着您可以根据需要添加尽可能多的物理冗余，但由于它们都运行相同的有缺陷的软件，所以仍然会存在单点故障。

尽管如此，自从我们为了打固件补丁而把整个系统拆下来之后，我们的运行似乎顺畅多了。我们的 SAN 修复总结报告让我担心 SAN 仍然有太多的奇思妙想。

Question 4

正如其他人指出的那样，正确配置和规范的存储后端（冗余控制器、电源、交换机等）发生故障并不常见。我真诚地要求 PM 详细讨论将其评为常见风险背后的想法。

从技术上讲，将“单点故障”记录为风险评估的一部分始终是值得的，但关于 HA 配置中的完全冗余存储是否代表“单点故障”，需要进行认真的讨论。这可能是也可能不是，这取决于您的组织和应用程序。如果是单点故障，还值得讨论整个数据中心服务中断的故障场景（因为冗余的 HA SAN 不太可能完全故障，而其他一切都保持正常运行）。

处理这些情况的成本相当高昂……首先是冗余数据中心，然后是地理上延伸的结构、多个完全冗余的 SAN、存储部分的“实时复制”。需要这些东西的场景和应用程序并不常见。

这只是我的个人经历：我遇到过导致孤立问题的固件和控制器错误。在一个罕见的情况下，我甚至遇到了一个错误，导致主动-主动对中的一个控制器转储并触发故障转移。这并没有导致停机。

我听说过一些噩梦般的情况，例如控制器裂脑或导致整个阵列崩溃的类似情况，但这种情况很少见，而且永远无法确定这不是由于人为错误或配置错误造成的。（人为错误和配置错误是巨大的问题......我并不是要淡化它们......但它们并不是与单个 SAN 相同意义上的“spof”。）

Answer