拿 10 台新电脑(都是同一制造商/规格),在上面安装 Ubuntu 并将它们全部连接到网络,这有多难?有什么提示可以指导您从哪里开始吗?
将它们全部纳入“网格”(例如,通过 Condor)有多难,以便可以将作业提交到中央节点并通过网络进行处理?有什么想法可以做到这一点/从哪里开始?
答案1
Ubuntu 有一个预先构建的 Condor 包,你可以下载并列出 karmic。这将启动一个独立的 Condor 安装,或者人们称之为“个人 Condor”安装。因此,您可以将作业提交到该机器上的队列,它们将通过 Condor 在该机器的后台运行。
要连接其他机器,您需要重复安装,但不需要在机器上运行 COLLECTOR、NEGOTIATOR 和 SCHEDD 守护程序,您只需要:
DAEMON_LIST = MASTER STARTD
这使得机器只是为您运行作业的节点。您需要在此机器上的配置文件中将 CONDOR_HOST 宏设置为运行收集器和协商器守护程序的机器的完整主机名。这样会将所有机器放在同一个池中,让它们全部向同一个收集器/协商器报告其可用性。
一旦将它们放入同一个池中,您就需要确定如何在提交节点和执行节点之间移动数据:您想让 Condor 传输数据吗?您想使用共享文件系统吗?默认是让 Condor 尝试进行文件传输,将整个网格视为一组松散耦合的机器,它们之间没有共享文件系统。这对于快速设置非常有用,但扩展性不如共享文件系统方法。不过,对于 10 台机器,我不会担心这一点。
如需更详细的入门信息,我强烈建议您阅读秃鹰手册。这本书有点长,但值得花时间阅读至少前三部分。
如果手册没有帮助,获得 Condor 帮助的主要途径是他们的condor-users邮件列表。它由威斯康星大学人员和其他 Condor 用户积极监控。我实际上正在考虑提出一个 condor.stackexchange.com...