如果一个人克隆slurm-gcp 项目并部署其中定义的股票集群,一切运转良好。
我想要做的是使用 GCP Filestore 实例为集群提供(更多)持久存储。
集群部署的一部分是创建一个名为 g1-network 的 VPC 网络(和子网)。
如果我在集群成功部署后创建 Filestore 实例,我可以选择 g1 网络。我可以看到创建了合适的路由。但我无法从任何集群机器 ping Filestore 实例。
答案1
我找到了解决办法。
首先,Filestore 没有回复 ping,这让我很困惑。
其次,最简单的方法是只使用“默认” VPC 网络和子网:
- 创建 Filestore 时,只需为 VPC 选择“默认”。
- 在具有集群定义的 YAML 文件中,将集群的 vpc_net 和 vpc_subnet 设置为“默认”,并将分区的 vpc_subnet 设置为“默认”。