为什么登录节点可以连接到外部网络,但分配的计算节点在 Slurm-GCP 中失败?

为什么登录节点可以连接到外部网络,但分配的计算节点在 Slurm-GCP 中失败?

我注意到通过 Slurm-GCP 从分配的计算节点连接到互联网一直失败。例如,wget从登录节点使用可以成功运行:

[me@gcp-login0 ~]$ wget https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.2.tar.xz
--2023-05-11 19:06:34--  https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.2.tar.xz
Resolving cdn.kernel.org (cdn.kernel.org)... 111.111.1.111, 111.111.11.111, 111.111.111.111, ...
Connecting to cdn.kernel.org (cdn.kernel.org)|111.111.1.111|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 102167060 (97M) [application/x-xz]
Saving to: ‘linux-4.17.2.tar.xz’

100%[======================================>] 102,167,060  277MB/s   in 0.4s   

2023-05-11 19:06:35 (277 MB/s) - ‘linux-4.17.2.tar.xz’ saved [102167060/102167060]

但在单个分配的 GPU 上,wget会停顿并失败:

[me@gcp-compute-0-0 ~]$ wget https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.2.tar.xz
Resolving cdn.kernel.org (cdn.kernel.org)... 111.111.1.111, 111.111.11.111, 111.111.111.111, ...
Connecting to cdn.kernel.org (cdn.kernel.org)|151.101.1.176|:443... 
failed: Connection timed out.

因此,我想知道是否有办法解决 Slurm-GCP 上计算节点的这个网络问题?我尝试修改防火墙设置和 VPC 网络详细信息,但它似乎只影响登录节点,无法定位 GCP 上的计算节点设置。

答案1

Goli Nikitha 提出了一个解决方法,尝试通过 SSH 登录并使用 srun --pty $SHELL,它会带你进入控制器的 SSH 页面。我按照这个文档而且这有效。

 

附上关于诊断并解决 Fluid-Slurm-GCP 中的常见问题

相关内容