SAN 同步复制和 SQL Server - RPO 可以为 0 吗？

Question

我无法对 3PAR 做出具体评论，但我对 EMC Symmetrix 阵列确实有很多经验。

我的建议是：另辟蹊径。同步复制是这些技术之一，它在纸面上看起来很棒，在最佳情况下也很好，但在现实世界中却会带来巨大的麻烦。

其工作方式如下：

传入的写入进入阵列上的缓存。
写入操作通过同步链接复制到远程站点。
写入已提交至远程阵列上的缓存。
确认信息被发送回主服务器。
写入 IO 成功并通知主机。

它的“RPO 0”是指如果数据在磁盘上，则数据在远程站点上。大多数应用程序使用内存缓存，而这些缓存在 DR 中会丢失。但是，这样做的代价很高：

您需要为远程站点提供足够的总带宽，以便始终能够满足复制要求 - 否则，您的主系统将受到严重影响，因为磁盘延迟将急剧上升。如果您曾经使此链接饱和，您将会受到影响，并且您的主要服务可能会崩溃。
您将始终面临延迟负担，并且您的性能将因此受到影响。

现在，这两件事可能都“没问题”。但根据我的经验，RPO0 和“同步复制”通常只有在有真正重要的事情时才会被讨论。

不过，直接回答你的问题吧：

Does the SAN deny data writes to the I/O until synchronisation has completed?

否 - 它会在异步模式下“赶上”，然后进入同步模式。这可能需要一段时间，具体取决于带宽，并且在同步之前，您不会获得“0 RPO”。

If a link is severed, does the SAN buffer the block changes until the connection is restored?

有点取决于您的配置。通常，它会将链接暂停/恢复视为需要异步重新同步的事件。当链接“断开”时，您的 RPO 不再为零。您可以在链接故障时“阻止” IO，但这可能只会使您的应用程序崩溃。

If a link is severed during a TL log write, and a DR occurs, doesn't this mean that we will have a potentially corrupt TL written to the secondary site, and therefore incur data loss? The data loss is only because the primary was able to commit, but the secondary was not able to synchronise.

否 - 同步意味着同步。如果同步，磁盘上的所有 IO 也都在远程。任何 IO不是但是磁盘上的数据丢失了，因此您可能会丢失最后的 translog。

Is RPO of zero ever a guarantee across the stack (SQL Server / Memory / Network / SAN / IO)?

RPO 是恢复点目标。如果你的目标（确实）为零，那么...你需要认真考虑你的架构。这是可以实现的，但成本非常高昂。

就我个人而言，我建议不要使用同步：

异步运行主数据存储，并依靠日志提供“同步”位。实际上，您的“RPO0”无论如何都只是“您提交的 translog”。因此，NFS（CIFS？）安装远程驱动器，并通过网络以及“本地”存储写入 translog，然后将它们重放到您的（几分钟不同步的）数据库中。

无论如何，您都会获得相同的恢复点 - 因为我非常怀疑您是否想要使用未记录的数据 - 而且您无需昂贵的同步操作即可这样做。

Answer 1