简单与冗余

Question

无论你做什么，硬件都会出问题。人总会犯错。

毫无疑问，我会升级每个机架，以便拥有多种东西。

您说每个机架中有 50k 台服务器，但只有一台交换机将它们连接到外部世界？我猜也是一台路由器和一台防火墙。
如果我是系统管理员，我不确定我个人能否应付这种情况。我会要求多个不同的传输提供商、一对处于 HA/HSRP 模式的边缘路由器、一对 HA 防火墙、至少 2 台交换机，并且所有服务器都有双网卡，每个网卡上都有一个不同的交换机。

STP 处理交换机或端口的故障，这是自动的。路由器的故障由对上的 HA 软件处理。防火墙也是如此。丢失数据中心并在它们之间切换流量，我假设您使用某种形式的 GSLB 设备？

我完全理解你的想法，但问题是，假设 DC1 因重大事故而下线，需要几天或几周才能恢复（火灾、洪水、$imaginary_deity 的行为）……然后 DC2 中的路由器出现故障。这不是一个完全不可能的情况。根据你告诉我们的情况，你的整个基础设施现在都无法从互联网访问。

这是可以接受的故障模式之一吗？我肯定不会容忍这种中断，因为它很容易（且成本不高）避免。

我想，如果你对这种中断进行风险评估，并考虑到你的雇主将遭受的业务损失，如果升级成本低于一周的业务损失，那么这是一笔很好的交易。

Answer 1