高可用性MariaDB仅需两台服务器

Question 1

您有两个节点。不要使用任何类型的主-主模式，因为两个节点极易发生脑裂（几乎可以肯定最终会发生）。

这种有状态的应用程序不能很好地处理双节点集群部署——需要操作员干预或 CRM 才能在发生故障时确保集群的稳健性——这也是它首先进行集群的原因。

您有一个双节点集群。您绝对应该担心裂脑，因为这种架构很容易出现裂脑情况。仅仅因为节点间网络链接今天是稳固的并不意味着它会一直如此，这是双节点集群中最大的风险因素之一。除非击剑或者法定人数在节点之间建立隔离。这是双节点集群中最重要的考虑因素之一，因为隔离可将裂脑情况的发生概率从高降低到接近零。

我建议使用 Pacemaker/Corosync 来处理这个问题。这是一个复杂的堆栈，但提供了在两个节点中产生生产级集群所需的机制。我还建议一次只使用一个主实例，而不是多主实例，即使在这种集群管理器的强制执行下也是如此。

有一个很好的 HA MariaDB 指南可以作为起点。它不涵盖隔离的使用。如果您无法完成隔离，Corosync 还可以使用运行投票守护进程的小型仲裁节点为整体实现提供仲裁，而无需应用程序开销成本（请参阅有关 Corosync qdevice 的信息）。

Pacemaker 高级资源类型涵盖了关于如何优雅地协调故障转移的大部分问题，能够将资源分组为线性依赖链，以及表达跨节点运行多个应用程序实例的多状态领导者选举语义。您可以在这里找到。

Bundle 是一种通过 Docker 和 RKT 等容器运行时在 Pacemaker 中实现应用程序隔离的方法。这开辟了另一种隔离途径，因为这些 Bundle 在集群中显示为 Pacemaker 节点本身 - 因此它们可以独立于其他应用程序由集群“隔离”。您可以在这里找到。

Answer

您有两个节点。不要使用任何类型的主-主模式，因为两个节点极易发生脑裂（几乎可以肯定最终会发生）。

这种有状态的应用程序不能很好地处理双节点集群部署——需要操作员干预或 CRM 才能在发生故障时确保集群的稳健性——这也是它首先进行集群的原因。

您有一个双节点集群。您绝对应该担心裂脑，因为这种架构很容易出现裂脑情况。仅仅因为节点间网络链接今天是稳固的并不意味着它会一直如此，这是双节点集群中最大的风险因素之一。除非击剑或者法定人数在节点之间建立隔离。这是双节点集群中最重要的考虑因素之一，因为隔离可将裂脑情况的发生概率从高降低到接近零。

我建议使用 Pacemaker/Corosync 来处理这个问题。这是一个复杂的堆栈，但提供了在两个节点中产生生产级集群所需的机制。我还建议一次只使用一个主实例，而不是多主实例，即使在这种集群管理器的强制执行下也是如此。

有一个很好的 HA MariaDB 指南可以作为起点。它不涵盖隔离的使用。如果您无法完成隔离，Corosync 还可以使用运行投票守护进程的小型仲裁节点为整体实现提供仲裁，而无需应用程序开销成本（请参阅有关 Corosync qdevice 的信息）。

Pacemaker 高级资源类型涵盖了关于如何优雅地协调故障转移的大部分问题，能够将资源分组为线性依赖链，以及表达跨节点运行多个应用程序实例的多状态领导者选举语义。您可以在这里找到。

Bundle 是一种通过 Docker 和 RKT 等容器运行时在 Pacemaker 中实现应用程序隔离的方法。这开辟了另一种隔离途径，因为这些 Bundle 在集群中显示为 Pacemaker 节点本身 - 因此它们可以独立于其他应用程序由集群“隔离”。您可以在这里找到。

Question 2

我运行了各种数据库（Mongo、Elasticsearch、SQL Server 等），秉承着同样的理念：“我不关心问题，我只能运行两个节点。”

这是一个充满痛苦的世界。

如果你运行主从模式，那就好了。但会有麻烦。

经过多年的纠结，以及由于我坚持只使用两个节点而导致的各种 devops 难题（我坚持这样做是因为我们的数据库非常大，而第三个节点的成本非常高），我终于开始运行三个节点。

然后一切都变好了。

我从多年的舞蹈生涯中得到的教训是：有两种选择：

根据我的经验，我永远不会再运行两个节点主动-主动（除非有一个神奇的东西可以完全防止脑裂，我已经看到过，而且非常丑陋）。

经过五年在各种堆栈上运行多个 0.5-1.5TB 数据库的经验。

Answer