condor

在 HTCondor 中我在哪里编辑 MachineAd?
condor

在 HTCondor 中我在哪里编辑 MachineAd?

我整天都在研究这个问题,但 HTCondor 文档和谷歌都无法帮助我: 在哪里可以编辑 HTCondor 集群中节点的 MachineAd?/etc/condor节点和 master/schedd 服务器上的文件夹不包含任何看起来像 MachineAd 的文件。 我的意思是有condor_update_machine_ad(https://htcondor.readthedocs.io/en/latest/man-pages/condor_update_machine_ad.html),但这只会设置新值,直到condor_startd或节点下次重新启动。必须...

Admin

HTCondor 高可用性
condor

HTCondor 高可用性

我目前正在尝试使本地隔离的 HTCondor 集群的作业队列和提交机制高度可用。该集群由 2 个主服务器(以前是 1 个)和几个计算节点以及一个中央存储系统组成。DNS、LDAP 和其他服务由主服务器提供。所有机器上的 Ubuntu 20.04.1 上的 HTCondor 版本均为 8.6.8。 我按照下面的说明进行操作https://htcondor.readthedocs.io/en/latest/admin-manual/high-availability.html。最终配置请参见下文。 spool 目录 (/clients/condor/spool)...

Admin

背景
condor

背景

背景 我有一台 Windows 7 VM,它有两个用户帐户(condor_usr1 和 condor_usr2),用于源代码编译。condor_usr[1|2] 帐户是管理员组的成员。我有一台 HTCondor 主 VM,它定期接收作业并将每个作业分配到其中一个 condor_usr[1|2] 帐户上运行。Win7 VM 上的 condor 服务作为本地系统帐户运行,但正在执行的作业实际上作为 condor_usr[1|2] 帐户运行。 我有一个新的需求,需要对已编译的可执行文件进行签名。我已将带有私钥的证书导入 Windows 证书存储中的当前用户\个...

Admin

Hashicorp 的 Nomad 可以作为 HTCondor 的替代品吗?
condor

Hashicorp 的 Nomad 可以作为 HTCondor 的替代品吗?

除了启动 Nomad 集群并进行实验外,我找不到任何有关此的信息,所以也许这里有人可以提供帮助。 假设您要运行批处理 Java 作业的 100 次迭代,每次迭代都有一组不同的参数并获取生成的输出文件。 input_files1)Nomad 是否接受您指向计算机上的本地文件并会分发该文件的概念? # in HTCondor would be something like this transfer_input_files = MyCalculator.jar,logback.xml 2)Nomad 是否会带回此类计算的结果,比如*.csv生成的文件?...

Admin

systemd 删除其他服务启动的子 cgroup
condor

systemd 删除其他服务启动的子 cgroup

我有一个服务(HTCondor 批处理系统),它作为 cpu、cpuacct 和内存 cgroup 切片(CentOS 7 @ 3.10.0-*)内的服务单元启动。 该服务启动子进程(~~> 批处理作业),并为其创建子切片,即细分其父资源。无需进一步干预,启动的进程位于子切片中 wc -l /sys/fs/cgroup/cpu,cpuacct/system.slice/condor.service/tasks 19 wc -l /sys/fs/cgroup/cpu,cpuacct/system.slice/condor.service/*/ta...

Admin

在 RHEL7 上安装 condor
condor

在 RHEL7 上安装 condor

我正在尝试在 RHEL7 上安装 condor。我这样做了: cd /etc/yum.repos.d sudo wget http://htcondor.org/yum/repo.d/condor-stable-rhel7.repo sudo wget http://research.cs.wisc.edu/htcondor//yum/repo.d/htcondor-stable-rhel7.repo sudo wget http://htcondor.org/yum/RPM-GPG-KEY-HTCondor sudo rpm --import RPM-G...

Admin

Condor 计算集群:有关分布式系统的快速信息?
condor

Condor 计算集群:有关分布式系统的快速信息?

如果您从未听说过 Condor Cluster 背后的想法:http://www.cs.wisc.edu/condor/ 它是由威斯康星大学开发的,但自诞生以来就被许多其他大学使用。 不过,我只是想知道,集群计算实际上是如何完成其​​工作的。它是否接受您提交的作业,并将其拆分成多个部分,并将不同的部分分配给分散在集群中的多个工作站?还是它只使用一这些工作站并将整个任务仅作为前台作业运行? 对整个集群/网格计算概念的任何见解都将非常有帮助。谢谢 ...

Admin

超越 cron:下一个调度程序是什么?
condor

超越 cron:下一个调度程序是什么?

我记得我们一直在使用 cron 来处理我们所有的作业调度需求。从存储克隆/快照到数据库报告,再到每日系统报告和监控检查,所有事情都是通过 cron 在几百台服务器上安排的。 缺点是相当明显的:难以管理作业,没有简单的方法来创建依赖关系(特别是跨不同的服务器),当然,不可避免地有人“暂时”跳过作业但后来忘记删除评论。 我们尝试了商业产品,但最终我们还是认为它作为 cron 的一个升级版本来说太贵了。 我看到其他选项,例如 SLURM、Oracle Grid Engine、Torque/Maui、Quartz...

Admin