我们需要专门用于 HPC Lustre 故障转移设置的存储,其中两个服务器必须共享相同的块级存储才能进行故障转移配置。
由于对硬件的了解非常有限,我有以下理解:
- NAS可以用于共享存储,但是由于中间网络会存在速度瓶颈。
- 可以使用 SAN,但实施解决方案的成本很高,并且对于 50-100TB 的存储来说并不是真正需要。
- 如果我们发现存储机箱有多个 iscsi 端口,则只能通过拆分来使用存储,即作为两个存储设备工作,并且两个系统不能使用同一个存储
。(这里要提醒一点,在 lustre 设置中,两个服务器都只连接在一起,但只会使用一个(不确定如何实现,需要再次检查这一点)。 - 拥有两台虚拟机可能是我们实现这一目标的方法。但是,这对于故障转移来说并没有太大帮助,因为物理机器只有一台。
但是,在发布问题时,我在想,如果我们尝试使用一台直接连接的服务器(主服务器)和另一台通过网络连接(故障转移),那么我们可以在 NAS 的速度上做出妥协,这样只有当主服务器停止工作时,我们才会遇到速度缓慢的问题。
答案1
Michael 说 lustre 不在乎。lustre 所需要的只是 /dev 中出现的块设备。
您仍然需要注意其他层,例如网络。如果您的网络链接比磁盘慢,您将损失性能。以太网很可能就是这种情况。即使使用快速链接,使用 iscsi 而不是直接连接也会损失少量性能。很难真正猜测您的问题是什么,因为这取决于您的硬件。我认为这就是为什么很难得到或给出一个明确的答案(我看过您的 lustre 讨论帖子,但我认为这是一个与硬件和互连更普遍相关的问题)。
肖恩
答案2
“如果我们找到存储机箱的多个 iscsi 端口,则只能通过拆分来使用存储,即作为两个存储设备工作,并且两个系统不能使用同一个存储。” 并非如此,您可以与多台机器共享一个 iSCSI(或任何其他块设备)LUN,但您需要使用具有某种分布式锁定机制的集群感知文件系统。幸运的是,这些很容易找到,但很少是任何操作系统的默认设置
如果您想要的只是一组在两个主机之间共享的共享磁盘,那么我建议您查看类似 HPE MSA2040 SAS 磁盘系统的产品。顾名思义,它是 SAS,但它的设置允许两台服务器连接到它,并且两台服务器都可以看到您在机箱上设置的各种逻辑磁盘。这样,如果一台服务器发生故障,另一台服务器仍然可以看到相同的磁盘。您可以使用 OCFS2、GFS 和其他一些文件系统进行设置 - 甚至在与集群服务一起使用时使用 Server 2012/R2 的 NTFS。除非您想使用 FC/FCoE/iSCSI 等,否则这几乎是最便宜的方法。