我正在研究云计算服务(例如 AWS 以及其他服务)是否可以有效地补充我一直用来解决流体动力学问题的传统集群(例如 Comet、Stampede2、Pleiades)。
也就是说,我需要运行我的代码(不是OpenFOAM(AWS 在其一项计划中宣传的)需要~1TB RAM 和~360 个具有快速互连的处理器(并且位于同一位置以最大限度地减少延迟)。
更普遍的问题是:云计算是否意味着一切都在某个未知的、可能是小型的机器上虚拟化,或者人们是否可以使用云计算请求使用特定的硬件(在这种情况下,它的使用方式与传统集群相同,但分配过程可能有所不同)?
答案1
在大型公共云中,AWS和Azure声称拥有解决方案,可通过低延迟网络连接实例。应用程序通常有一个 MPI 实现作为目标。
在某些情况下,你可以影响实例的放置位置,例如集群策略中的 AWS 置放群组。他们不会说任何一种情况,但这可能不是专用于 HPC 的机架。只是拥有最快硬件和软件加速 NIC,可提供单租户或专用金属节点。
或者,如果应用程序可以在大型 NUMA 系统上扩展,也请考虑这一点。NUMA 仍然具有节点间延迟,但足够低以运行单个图像。
对于 x86,截至 2019 年,最新的 Xeon 上提供 8 个插槽,共计 224 个内核。更多插槽需要定制互连,仅在 HPE Superdome Flex Server 等稀有产品上可见。前者可作为高内存 AWS 实例使用,后者不太可能在云中出租。
对于 POWER 来说,标准配置中有 16 个插槽系统(如 E980),但核心数没有那么多。