提高恢复力的最佳方法是什么?

提高恢复力的最佳方法是什么?

我为 2010 年安排的主要项目之一是尝试缓解我目前管理的网络中的一些单点故障 (SPOF)。我们目前有一个数据中心机架,其中包含几十台服务器。
机架内部是冗余且有弹性的,每台服务器有 2 个磁盘,可以承受一次故障。
我们的数据存储服务器有 3 个以上的磁盘,可以承受一次故障。我们也能快速修复/更换损坏的硬件。每台服务器至少有一个复制伙伴,我们可以承受每个集群(即 Web、数据库、存储)中丢失 1 或 2 个。

互联网连接由 2 个 100MBit 以太网馈线提供,馈线连接到我们的主要传输提供商,连接到一对高可用性故障转移对中的 Cisco ASA5500 防火墙。这不是问题。

在我看来,两个最大的 SPOF 如下:

1) 我们的互联网来自单一传输提供商。如果他们的网络出现故障,我们就会断网。由于我们位于运营商中立的数据中心,因此很容易获得第二个 IP 传输。

2)如果我们的数据中心的电源出现问题,那么我们也将失去一切。

理想情况下,我希望两个数据中心的服务器都使用通过多个​​ IP 传输提供商的不同路由,并通过 BGP 进行公告。

在第二个数据中心,我将配置 2 个 cisco 28xx 系列路由器、2 个 ASA 5500 防火墙、一对 Catalyst 48 端口交换机和十几台戴尔服务器。大致与主要位置相匹配。

管理层声称,这种方法需要花费大量资金,而 BGP 路由的成本过高。虽然他们似乎很乐意有第二个位置,但 BGP 似乎不在考虑范围内。

多宿主的最后报价接近 80,000 英镑。(也许他们正在询问镀金思科的报价!)

相反,管理层认为最好使用基于 DNS 的解决方案来解决这个问题,其中我们的路由由状态正常运行时间监控服务(如 pingdom)控制,它会在服务器发生故障时更改我们的 DNS 记录(具有 1s TTL)以指向备用位置。

大量公司使用 BGP 是有原因的,这种 DNS 解决方案根本无法满足要求,尤其是考虑到许多 ISP 等实际上都忽略了短 TTL 而用较长的 TTL 取而代之。

问题:

1) 有人可以推荐西欧(阿姆斯特丹等)或美国东部(华盛顿特区、弗吉尼亚州、纽约州等)的优质运营商中立数据中心吗?

2)有人让这个 DNS 解决方案正常工作吗,或者这是一个完全疯狂的情况?

3) 是不是只有我一个人觉得 80,000 英镑的多宿主报价(在 1 个地点)绝对过高了?

4)有人有什么好方法可以让我说服管理层,BGP 是唯一现实的解决方案吗?

抱歉篇幅太长.. :o)

答案1

嗯,您说得对,DNS 绝对不是答案——从运行过多宿主 ISP 网络并且现在以 DNS 为生的人那里得到答案。

80,000 英镑的报价是用于什么——仅用于 BGP 和额外的传输馈送,还是也用于必要的 Cisco 路由器?您当前列出的 2800 可能无法运行完整的路由表——全球 BGP4 表中目前有超过 200,000 条路由,这需要很多路由器内存。

我真正这样做已经有几年了,但实际上从传输供应商处获取 BGP 并不昂贵 - 事实上,较大规模的供应商希望提供 BGP 作为服务的一部分,特别是如果你使用 100+ Mbps。

另外,目前的主要数据中心在哪里?您不一定需要大规模的多样性 - 我的网络最初在伦敦有两个数据中心 - 一个在市区,一个在码头区,相距约 10 公里。这足以排除大多数自然灾害。

如果你在伦敦拥有两个站点,那么有许多公司提供该市众多数据中心之间的廉价以太网链路。其中最受好评的是数据跳跃- 他们在站点之间建立 1 Gbps 的链接,每年花费约 4,000 英镑。

同样,对于备用站点,如果您只想在紧急情况下使用第二个传输链路,那么我看到 Cogent 等公司以每 Mbps pcm 5 英镑的价格提供极其低廉的价格。我不会将它们用作主要站点,但作为最后的传输手段,它们值得考虑。

答案2

  1. 我以前的雇主在 Equinix 位于新泽西州的一家工厂工作。我为他们工作时,他们似乎对此很满意。除此之外,抱歉,我在那里的工作并不多。

  2. DNS 故障转移很糟糕。正如您所发现的,有足够多的提供商忽略 DNS TTL,因此 DNS 故障转移在第一次发生时会给管理带来麻烦。

  3. 是的,对于 BGP 多宿主来说,这是一笔高得离谱的金额。

  4. 由于不了解管理层的心理,我无法给出具体的建议。为 BGP 找到一个合理的报价,并提醒他们拥有一个完全冗余的设施的实际成本——这比他们想象的要高得多,尤其是当你需要进行定期故障转移测试以确保一切仍然正常工作时。

此外,还要对故障场景和概率进行合理的分析,并考虑如果发生其中一种情况,实际成本是多少。结果可能是,每隔几年因停电而停机几个小时的成本比冗余设施的成本要低得多。很多时候,管理层(或技术人员)会进行“冗余狂欢”,这没有任何经济意义。

最后,请记住,大多数中断实际上是人为造成的,故障转移站点和所有额外的复杂性可能会增加的机会,而不是减少它们。

答案3

只是一些快速的想法;

  • 将您的套件分成两个机架,每个机架由来自 PDU 的同一相的不同支线供电。
  • 如果 PDU 没有 UPS,则将 UPS 放入每个机架中。
  • 考虑通过 BGP 进行全局负载平衡,这就是我们进行主动-主动多站点操作的方式。
  • 以 Telehouse (telehouse.net) 为例,他们在西欧和美国东部都有分店,而且是中立且备受推崇的。

答案4

简单而好的解决方案:我们的中型电子商务网站使用 Zoneedit DNS 进行故障转移,使用 AlertFox 进行交易测试。如果排除切换过程中 1-3 分钟的故障,我们的向上今年的时间是 100%。费用:Zoneedit 每年 20 美元(?),AlertFox PRO3 每月 199 美元。另加两台专用服务器。

相关内容