我们正在审查新客户给我们带来的系统要求。他们从事医疗领域的工作,他们希望我们托管的系统必须至少具有高可用性,最好具有容错能力。
我们正在考虑授权 VMWare Enterprise,以便通过兼容 FT 的硬件获得其 HA 和 FT 功能。没什么大不了的 - 10Gbs 以太网价格正在下降,1Gb 以太网也不是问题。
然而,客户的要求之一是我们有一个位于完全不同城市的 HA(不是 FT,但 FT 会很好)站点。
澳大利亚的带宽是疯狂的价格昂贵,我甚至不知道悉尼和墨尔本(相距约 1000 公里/600 英里)之间是否有可能建立 1Gbps 连接。我可能很难在两座城市之间建立 100Mbps 连接。
我提供 HA 系统的选项有哪些?不一定非要使用 VMWare,但如果一个站点出现故障,我需要能够登录到第二个站点并点击“开始”按钮,然后启动并运行。
答案1
我目前正处于为 $WORK 设置 DR/HA 远程数据中心的初始规划/实施阶段。我们当前的环境已经高度虚拟化,无论是服务器虚拟化 (VMware) 还是存储虚拟化 (Compellent SAN)。因此,我们认为充分利用这两种技术以及它们提供的 HA 解决方案是最合理的。
我们所有的 VMFS 卷目前都位于 Compellent SAN 上,我们将使用它们的卷异步卷复制来使远程站点上的另一个 SAN 上的内容保持相对同步(可能每 15 分钟一次)。然后,对于虚拟机本身,我们使用 VMware 的 SRM。我猜你听说过这个很酷的产品。如果您愿意,它可以抽象/自动将故障转移到您的辅助数据中心,只需单击一下按钮即可。非常巧妙。
幸运的是,我们在站点之间有一条 GigE 链路,我们将用它来进行 SAN 复制(以及其他操作)。每 15 分钟同步一次时,我们的情况中的卷增量不会那么大。根据您客户系统的变动量,通过 100Mbps 链路(甚至更小)保持同步可能并不那么困难。我知道其他 Compellent 客户正在通过单个 T1 进行同步。显然,那里没有发生太多数据更改...
无论如何,有以下几点需要考虑:
- 小心你的交换 LUN。它们很可能不需要复制。当然,远端的系统将要需要交换 LUN,但您可能可以将这些虚拟机重新映射到本地 LUN。这样,您就不必担心复制无用数据的开销。
- 确保您的 SAN 供应商有故障恢复计划。您不会希望您的生产环境在故障转移站点运行数月而“受困”,因为您不知道如何在主站点上恢复同步。
- 这不言而喻,但要测试、测试、再测试。VMware SRM 可以做到这一点非常易于执行,并可以为您提供良好的故障转移测试报告以交给 PHB。
- IP 寻址。在我们的案例中,我们在站点之间运行 802.1QinQ,因此在故障转移站点运行时无需重新寻址服务器(幸运的是)。不过,这确实需要来自每个站点的 BGP 通告(具有适当的权重),以及在每个站点维护防火墙规则,以便当流量转向故障转移站点时,一切将按预期运行。
这就是我现在的所有建议。六个月后,当我(希望)接近完成我们的 DR 系统时,我相信我会学到更多东西。:) 祝你好运,玩得开心!
答案2
在 $WORK 我们正在评估 HP P4000 SAN(又名 LeftHand)上的 VMWare SRM。