集群中的公共服务故障转移

集群中的公共服务故障转移

我正在开始使用物理服务器集群,并计划设置 3 节点超融合 oVirt。

我目前将所有应用程序和网站部署在 VPS 和 API 置备的云实例上。我有一些 HA 经验,但每个项目最终都有一个负载均衡器或 Web 服务器,域名指向该服务器。

我了解 oVirt 集群的配置使得每个节点都可以通过 FQDN 访问,无论是通过 VPN 还是公共名称。

但是,当任何虚拟机都可以移动到几乎任何主机时,我该如何从集群运行多个公共虚拟主机?我是否应该将所有主机 IP 地址列为单独的 DNS A 记录并依赖浏览器故障转移?似乎很奇怪。或者我应该使用单独的防火墙/路由器扩展整个集群,作为所有 TLD 的入口点?它再次成为单点故障和 colo 的额外框。或者是否可以强制编写区域更新脚本?

我可能忽略了一些非常明显的东西;非常感谢大家的建议。谢谢!

答案1

oVirt 虚拟化硬件,提供 VM 实例。这些 VM 可以在不同的物理主机上启动。

逻辑虚拟网络通常与物理网络不同。虚拟机web3在从 迁移到 时会保留其 IP 地址ovirt1ovirt2这些物理节点不面向最终用户。

然而,oVirt VM 还远未完全考虑高可用性。

您的恢复时间目标是多少?如果是几个小时,您就有时间进行重大修复。时间越短,就越复杂,成本也越高。

考虑应用程序设计。传入请求如何流向哪个实例?它可以负载平衡到多个实例吗?负载平衡器本身是否需要 HA?其数据库是否有复制解决方案?

认识到集群很难安全且快速地完成。oVirt HA VM 重启的标准并不简单。灾难恢复始终是需要考虑的问题,包括集群分裂和数据损坏的情况(希望不太可能发生)。当应用程序不需要单个虚拟机来保持可用时,虚拟机 HA 就变得不那么重要了。

说到 DR,请考虑是否有多个站点在范围内。对于集群来说,oVirt 有几种 DR 模式. 扩展主动/主动,并分离集群主动/被动。此处的设计决策会影响问题域和恢复时间。例如,从存储和第 2 层网络的角度来看,被动设置可能几乎完全隔离。很好,主站点中的问题很难延伸到那里。想想公共云中的一个区域。但切换是一个手动过程,可能涉及 DNS 更新。

相关内容