HPC 云计算

HPC 云计算

我正在研究云计算服务(例如 AWS 以及其他服务)是否可以有效地补充我一直用来解决流体动力学问题的传统集群(例如 Comet、Stampede2、Pleiades)。

也就是说,我需要运行我的代码(不是OpenFOAM(AWS 在其一项计划中宣传的)需要~1TB RAM 和~360 个具有快速互连的处理器(并且位于同一位置以最大限度地减少延迟)。

更普遍的问题是:云计算是否意味着一切都在某个未知的、可能是小型的机器上虚拟化,或者人们是否可以使用云计算请求使用特定的硬件(在这种情况下,它的使用方式与传统集群相同,但分配过程可能有所不同)?

答案1

在大型公共云中,AWSAzure声称拥有解决方案,可通过低延迟网络连接实例。应用程序通常有一个 MPI 实现作为目标。

在某些情况下,你可以影响实例的放置位置,例如集群策略中的 AWS 置放群组。他们不会说任何一种情况,但这可能不是专用于 HPC 的机架。只是拥有最快硬件和软件加速 NIC,可提供单租户或专用金属节点。


或者,如果应用程序可以在大型 NUMA 系统上扩展,也请考虑这一点。NUMA 仍然具有节点间延迟,但足够低以运行单个图像。

对于 x86,截至 2019 年,最新的 Xeon 上提供 8 个插槽,共计 224 个内核。更多插槽需要定制互连,仅在 HPE Superdome Flex Server 等稀有产品上可见。前者可作为高内存 AWS 实例使用,后者不太可能在云中出租。

对于 POWER 来说,标准配置中有 16 个插槽系统(如 E980),但核心数没有那么多。

答案2

AWS 提供高内存纯金属配置旨在运行 HANA DB(内存数据库),在撰写本文时,其中最小的配置从 6TB RAM 开始,有 224 个核心,总​​共 448 个逻辑处理器。

如果这不能满足你的需求,你就得去其他地方了,比如虚拟流(戴尔科技集团旗下子公司)致力于业务关键型云系统

免责声明:我在 Virtustream 工作...¯\_(ツ)_/¯

相关内容