pdsh

检测 pdsh 会话
pdsh

检测 pdsh 会话

在我们的集群上,我们使用 LMOD 动态加载特定的预安装模块(如 PyTorch 或其他一些科学包)。最重要的是,我想运行一些代码深速允许优化跨节点运行分布式代码的框架。它在幕后使用pdsh.我遇到的问题是 ssh 会话当然不会加载我已经在主节点中加载的模块 - 但这会导致问题,因为它无法找到一些所需的库,例如 Python。 举个例子:假设我请求一个具有多个节点的交互式 SLURM 作业。在主节点中,我加载模块 PyTorch+Python 和 pdsh module load PyTorch/1.12.0-foss-2022a-CUDA-11.7.0 m...

Admin

pdsh 和命令退出代码
pdsh

pdsh 和命令退出代码

我想用来pdsh断言命令在多个节点上成功运行,如果该命令在任何节点上失败,则退出代码(来自pdsh)应为非零。 考虑以下示例: $ pdsh -w host1,host2 "exit 0"; echo $? host1: host1 host2: host2 0 $ pdsh -w host1,host2 "exit 1"; echo $? host1: host1: ssh exited with exit code 1 host2: host2: ssh exited with exit code 1 0 $ pdsh -w host1,host2,...

Admin

pdsh可以从文件输入吗?
pdsh

pdsh可以从文件输入吗?

我可以将数据从一个命令传输到另一个命令,例如: $ echo test | cat test 不确定该打电话给什么我可以使用以下操作获得类似的效果: $ cat < <(echo test) test <(echo test)即时创建文件有什么害羞的地方。使用常规文件,它看起来像: $ cat file test $ cat < file test 这与 ssh 一样有效: $ ssh server cat < <(echo test) test 使用 ssh-example 作为基础,人们可能会认...

Admin

PDSH 脚本输出文件
pdsh

PDSH 脚本输出文件

我运行这个 pdsh 脚本: #!/bin/bash ServersListFile=/etc/pdsh/root_audit Result=/etc/pdsh/SudoRoot.csv /opt/techunix/bin/pdsh.sh -f $ServersListFile -c "hostname" >> $Result 我仅得到以下输出: 要执行的命令:主机名 输出可以使用 dshbak 命令进行处理 并在屏幕上显示: pdsh@pradminux: DVACSDXS01: ssh 已退出,退出代...

Admin

命令在本地有效,但在远程失败
pdsh

命令在本地有效,但在远程失败

我不明白为什么当我通过 ssh 或 pdsh 远程使用命令时会失败: 在本地它的工作原理: line=` last -F | grep -vE '^(svc_qual|s594998a|reboot|s823850a|s825722a|s559857a|s603256a|root|s823656a|s230281a|s638181a|s835786a)' | head -1 `;login=`echo $line | awk '{print $1}'`dm;user=`getent passwd $login` ;echo $line ; echo $u...

Admin

在多个服务器中并行执行sh脚本
pdsh

在多个服务器中并行执行sh脚本

我正在尝试在循环中的多个服务器中执行操作,但我想在第一个服务器中启动我的操作并直接转到第二个服务器,而无需等待第一个服务器完成。 HOSTS="host1 host2" For hostname in ${HOST} ; do ssh -tt ${USERNAME}@${hostname} << EOF actions exit EOF Done 有人知道如何在 linux sh bash 中做到这一点吗? 先感谢您。 ...

Admin

如何向具有不同参数的远程节点发出并行命令?
pdsh

如何向具有不同参数的远程节点发出并行命令?

我需要在多个 Ubuntu 服务器上并行执行应用程序,同时为不同的服务器提供不同的参数。我尝试用谷歌搜索,但无法找到可能的解决方案。我什至尝试过 ssh/pdsh/parallel,但没有成功。 为了进一步解释该场景,这里有一个非工作示例(带有pdsh),script.sh应在所有 3 个服务器上并行执行,但使用不同的参数。仅供参考,我已经有了公共/私有 ssh 密钥(无密码登录)。 pdsh -w server1,server2,server3 -l username script.sh args 其中argsserver1 应该为 1,serve...

Admin

SED 和 PDSH:向集群中从属节点上的文件添加一行
pdsh

SED 和 PDSH:向集群中从属节点上的文件添加一行

我正在尝试添加一个新行,其中包含集群中 32 个从属节点上每个文件GATEWAY=10.0.10.1的内容。/etc/sysconfig/network内容。 我读了这个关于如何使用 sed 插入一行的帖子。 这适用于我向本地文件添加一行: sed -i.bak -e "\$aGATEWAY=10.0.10.1" test/test1 这适用于我查看节点 32 上的文件: pdsh -w n032 cat test/test1 这失败了对于我来说,尝试向节点 32 上的文件添加一行: pdsh -w n032 sed -i.bak...

Admin

使用 pdcp 时主机密钥验证失败(退出代码 255)
pdsh

使用 pdcp 时主机密钥验证失败(退出代码 255)

我正在尝试在我们所有的机器上一台一台地安装特定的软件,所以我决定使用pdsh.默认情况下,它将同时在多台机器上并行运行,但我将使用该-f选项将其限制为一次在每台机器上运行。 只是为了玩它,我决定运行以下命令,但出现错误: david@machine0:~$ sudo pdcp -w machine1 abc.tar.gz /home/david machine1: Host key verification failed. pdcp@machine0: machine1: ssh exited with exit code 255 我在这里做错了什么...

Admin