GPU 服务器的存储配置(ML 训练)

GPU 服务器的存储配置(ML 训练)

我们最近购买了几台高性能 GPU 服务器用于训练 AI/ML 模型,设置和管理的工作就落在了我的身上。

首先我要说的是,我绝对不是系统管理员。我是一名学者,所以从我的角度来看,我花在设置和维护服务器上的时间越少越好。他们将运行 Ubuntu 服务器 22.04 LTS。

我对这些服务器的存储设置很感兴趣。它们目前有:

2 个 Intel S4510 480GB SATA 3 驱动器通过硬件 RAID 控制器(BROADCOM 9560-8i)设置为 RAID 1。2 个 Samsung PM983 960GB NVMe 驱动器。

我并不特别担心数据恢复,因为所有数据都将备份到其他系统上(这是我们大学的研究数据管理政策规定的)。我更关心加载和处理数据的速度。

我目前的计划是将硬件 RAID 1 阵列用于系统分区,然后将 NVMe 驱动器上的软件 RAID0 用作用户分区(这样产生大约 2TB 的数据存储)。

我的问题是:这个想法是否荒谬或者听起来合理?

答案1

当然,将操作系统/应用程序放在 R1(2 x 480GB)上是有意义的。

显然,您没有提到数据的实际存储需求,显然您不需要大量的存储空间,而且正如您所说,您并不太担心实际数据本身。

所以问题是,您是否愿意失去所有可爱的 NVMe 速度来将所有内容写入两次,使用带有 SW R1 的 CPU/内存/PCIe 总线并获得一定程度的数据保护,或者您是否保持该性能,减少 CPU/内存/PCIe 负载,但通过使用 R0 配置引入丢失数据的单点故障。

最终,您需要根据您的性能需求来衡量风险 - 只有您自己知道,但这是问题的关键 - R1 代表速度较慢但更可靠的存储,或 R0 代表“一次性”但性能更快。

这些帮助有用?

答案2

是的,没有什么比 RAID0 更快

相关内容