在 Linux 集群中运行并行作业 - mpich 错误

在 Linux 集群中运行并行作业 - mpich 错误

首先,我想说这是我在这里的第一条消息,我不确定这是否是正确的地方,我猜是我们但是...如果它更适合另一个 stackexchange 网站,请告诉我。

三个月前,我负责一个由六台计算机(Suse Linux 9.2)组成的集群,该集群以预报模式运行气象模型。最近,由于断电,其中一个节点崩溃了。安装 Lubuntu 12.04(Suse 9.2 磁盘不可用,只有 10.2)后,我尝试将这台计算机重新连接到集群:

  1. 安装 openssh 服务器
  2. 运行 ssh-keygen 即可进行 ssh 而不需要密码
  3. 已安装 NFS 支持
  4. 编辑 /etc/fstab
  5. 编辑 /etc/hosts

然后我尝试运行 met 模型但收到以下错误消息:

rm_1993:p4_error:无法获取主机 thalassa 的 hostbyname;名称可能无效:61
p0_12316:p4_error:与 thalassa3 上的远程进程建立连接时子进程退出:0

经过 Google 搜索后,我发现 /etc/resolv.conf 存在一些问题,然后编辑了这个文件:

域名 ceam.es
dns 名称服务器 192.168.1.1
名称服务器 127.0.0.1

但错误消息仍然出现。我想我漏掉了什么,我不是专业的系统管理员,但我必须处理。

你可以找到错误日志主办方解析配置文件这里。

任何帮助或想法都将不胜感激,我将继续在网上寻找解决方案。

提前致谢

答案1

首先,您可能需要从 /etc/hosts 中删除此行:

127.0.1.1 塔拉萨3

因为这样一来,您将获得单个主机名的 2 个 IP,而 /etc/hosts 无法处理。

然后,在 /etc/hosts 中有了所有需要的信息后,我宁愿将 /etc/resolv.conf 清空以避免产生歧义。

关于dns-nameservers 192.168.1.1/etc/resolv.conf。
正如您在文件开头的注释中看到的那样:

# Dynamic resolv.conf(5) file for glibc resolver(3) generated by resolvconf(8)  
#     DO NOT EDIT THIS FILE BY HAND -- YOUR CHANGES WILL BE OVERWRITTEN

您不需要手动编辑此文件。根据新规则,dns-nameservers应在 /etc/network/interfaces 中指定,这将自动将更改传播到 /etc/resolv.conf(假设您已安装 resolvconf 包)。这是根据 Ubuntu OS 的服务器版本。如果您出于某种原因使用带有 gui 的安装,则可能必须通过网络管理器进行这些更改。

您可能还想检查 /etc/hostname 的内容以验证其是否正确。如果您编辑它,则必须重新启动才能使更改生效。

相关内容