每个 48U 都应该有自己的 UPS 吗？

Question 1

东西失败了。这是系统管理员生活的一部分。任何您所制定的商业计划依赖于提供 100% 正常运行时间的服务，这是错误的。在说其他事情之前，我要指出的是，我对这次中断事件的细节一无所知。

话虽如此，我以前也遇到过工业级 UPS 故障。在一家高端托管数据中心，我们的 800A 断路器发生部分断开故障，这意味着所有受保护的服务器都连接到两个都街道和 UPS 电源短暂地通电，然后四个小时没有电。当电源恢复时，我们发现我们的主要 DB 服务器由于快速的电源循环和峰值而丢失了近一半的硬盘。那是有趣的一天。

当然，你可以在每个机架中安装一个 UPS，从而复制现场 UPS 的功能。我从未见过任何人这样做的原因在于它使单点故障增加了一倍，更糟糕的是，它在你的设备和工业UPS之间插入了第二个质量较差的SPOF。数据中心规模的UPS将定期维护，受到严格监控，并且几乎不会（但不是机架式 UPS 更适合消费级设备，故障率更高。我的个人服务器曾经因为单个 UPS 故障而停机一整个周末，尽管托管电源一直都很好。

如果你真的想要一个高可用性产品，你需要 BGP 路由的 PI 网络块、分布在多个 DC 上的多个提供商的重复套件、具有约束力的重型 SLA；整个非常非常昂贵的产品。这就是为什么我说您无需额外付费即可获得 99% 的收益；每增加 9%，成本就会增加一个数量级。如果您的组织中有任何人认为将东西放到云中意味着您无需在硬件上运行或不需要担心硬件，那么，他们就错了。

Answer

东西失败了。这是系统管理员生活的一部分。任何您所制定的商业计划依赖于提供 100% 正常运行时间的服务，这是错误的。在说其他事情之前，我要指出的是，我对这次中断事件的细节一无所知。

话虽如此，我以前也遇到过工业级 UPS 故障。在一家高端托管数据中心，我们的 800A 断路器发生部分断开故障，这意味着所有受保护的服务器都连接到两个都街道和 UPS 电源短暂地通电，然后四个小时没有电。当电源恢复时，我们发现我们的主要 DB 服务器由于快速的电源循环和峰值而丢失了近一半的硬盘。那是有趣的一天。

当然，你可以在每个机架中安装一个 UPS，从而复制现场 UPS 的功能。我从未见过任何人这样做的原因在于它使单点故障增加了一倍，更糟糕的是，它在你的设备和工业UPS之间插入了第二个质量较差的SPOF。数据中心规模的UPS将定期维护，受到严格监控，并且几乎不会（但不是机架式 UPS 更适合消费级设备，故障率更高。我的个人服务器曾经因为单个 UPS 故障而停机一整个周末，尽管托管电源一直都很好。

如果你真的想要一个高可用性产品，你需要 BGP 路由的 PI 网络块、分布在多个 DC 上的多个提供商的重复套件、具有约束力的重型 SLA；整个非常非常昂贵的产品。这就是为什么我说您无需额外付费即可获得 99% 的收益；每增加 9%，成本就会增加一个数量级。如果您的组织中有任何人认为将东西放到云中意味着您无需在硬件上运行或不需要担心硬件，那么，他们就错了。

Question 2

我不知道这次中断的具体情况，但没有什么神奇的“一个永远不会中断的奇怪技巧”，这个提供商不知道或拒绝实施，以至于提供商以后做使用。

无论你做什么，无论你计划得多么周密，总有出错的可能。我曾经在一家石油和天然气勘探公司的大型数据中心工作，当时我们拥有最新、最出色的 IBM 大型机技术。它不仅是金钱可以买到的最快的系统，也是 IBM 可以提供的最可靠、冗余度最高、弹性最大的系统。

但它失败了，导致我们停电了 36 个小时。原因不是代码错误或电源问题，也不是您通常会联想到的导致大规模停电的任何因素，而是因为一个价值几美分的小橡胶垫圈。

该系统采用水冷，水冷系统还内置了冗余和弹性。当时没有人真正意识到这一点，但只有一个小小的“单点故障”——泵允许两个水冷回路仅从一个进水管和出水管加压或排水。猜猜我之前提到的垫圈在哪里，但是......？

那么，我要讲这个轶事来说明什么呢？如果您希望从云/托管服务获得冗余，那么您不需要从战术上考虑 UPS 与电源轨的安排，而是需要从战略上考虑并选择一个在多个地理位置分散的供应商（或多个供应商，并接受内部管理的开销），并且它们之间具有万无一失的（他们/您如何定义？他们/您如何测试？）故障转移机制。

Answer