Slurm:如何找出给定节点上未分配的内存量
我是 SLURM 新手。我正在寻找一种方便的方式来查看节点/节点列表中有多少内存可用于我的 srun 分配。 我已经尝试过 sinfo、scontrol 和 sstat,但它们都无法通过一个舒适的概览为我提供我需要的信息。 我曾想过编写一个 shell 脚本,以便从 scontrol 中获取所有作业的所有字段并将它们汇总起来。但一定有更简单的方法。如果有人能提供提示或想法就太好了! ...
我是 SLURM 新手。我正在寻找一种方便的方式来查看节点/节点列表中有多少内存可用于我的 srun 分配。 我已经尝试过 sinfo、scontrol 和 sstat,但它们都无法通过一个舒适的概览为我提供我需要的信息。 我曾想过编写一个 shell 脚本,以便从 scontrol 中获取所有作业的所有字段并将它们汇总起来。但一定有更简单的方法。如果有人能提供提示或想法就太好了! ...
团队,Dolphin Scheduler ver - 3.1.8 安装在 Linux RHEL 9.0 中 安装 Zookeeper 后,MySQL 和所有服务(Api 服务器、主服务器、工作服务器、警报服务器)均成功启动。即使我给出以下命令 curl -Lv http://localhost:12345/dolphinscheduler/ui 也会返回成功,即 200 代码。 如何在 Web 浏览器中打开 Dolphin Scheduler UI?或者 Linux 服务器需要的任何其他设置? ...
我已经构建了一个 slurm“集群”(目前只有一个作业服务器和单个计算服务器),并尝试在其上运行作业。我可以很好地运行 CPU 作业,它会将它们发送到机器并运行它们。但是,当我尝试运行 GPU 作业时,它永远不会将其发送到机器。根据 slurmctld 日志,它找到了该节点并认为它可用。它只是从不将作业发送到机器。 以下是配置文件和日志: slurm.conf # slurm.conf file generated by configurator.html. # Put this file on all nodes of your cluster. # Se...
我们有一个 autosys 主机,特别是活动路径,会自动创建 .lck 文件。因此,我们可以看到成功运行,但我们的门户并未按照每 5 分钟安排的作业运行进行同步。尽管作业已成功运行,但仍观察到门户同步过程中的一些延迟。 我们还可以看到 .lck 文件正在活动路径下生成。我们尝试删除它们,但它们仍然会生成。删除 .lck 文件后,我们可以看到门户正在正确同步。 有人可以协助处理此案吗? 谢谢 ...
我在一个网站上工作,该网站使用 cron 作业来导入和更新产品。平台是 Woocommerce。供应商提供了 csv 文件和服务器要求。我要求的配置是:32GB RAM、16vCore、400GB 空间。 问题是,这项工作每小时只工作几分钟……3 到 10 分钟之间,即使他有很多待处理的工作。我的意思是,例如,从 09:00 到 09:10,工作在进行,然后停止,他从 10:08 重新开始,一直工作到 10:15。然后从 11:10 到 11:20。我不明白为什么。这是 cron 作业设置: 分钟 小时 日 月 星期几 * * * * * /usr/bin/...
有人知道在小型集群计算机上运行的“IBM Spectrum LSF”的大致许可定价吗? 他们如何授权该产品? ...
我将简要描述我的应用程序工作流程:我有一个应用程序(cronjob),该应用程序读取我的数据库,我想根据数据库的输出在 Kubernetes 中运行一些作业。有时是 1 个作业,有时是 10 个作业,这取决于具体情况。此外,我想将一些环境传递给此作业。 此外,我在 GCP(Autopilot)上运行 Kubernetes 集群,因此我不希望任何 pod 一直运行。因此,Tekton 中的 EventListener 不是一个好选择,因为 Kubernetes 服务在专用 Pod 内运行接收器逻辑。 我怎样才能以最合适的方式做到这一点?也许我应该使用 K8s ...
我搜索了本地进程的作业管理解决方案。通常它们会运行数周。目前我使用的是 jenkins,但服务器无法重新启动(安全更新)并且没有冗余。如果一台服务器离线,则所有作业都应重新平衡到在线服务器。只需使用相同的参数重新启动脚本即可,但应该可以禁用此行为。此外,添加/删除新服务器也应该很容易。 我不需要一个完整的解决方案,但我搜索了这样的软件,并没有真正找到我想要的东西。我很感激任何指向正确方向的提示(也是搜索关键词)。我基本上只是找到了 CI 软件,但我想要一个服务器容错解决方案。 ...
正如另一个问题中提到的:使用 crontab 进行作业调度,如果在此期间计算机关闭,会发生什么?那克罗恩在关机/重启情况下作业将无法工作,我们可以使用阿纳克隆对于这种情况 就我的情况而言,有很多克罗恩作业安排和主机重启的机会很小,一年只有一到两次,其余时间主机都在运行,并且从克罗恩到阿纳克隆可能没有必要。我的计划任务任务是在 CentOS 机器上分配的。有什么办法吗? 我是新手克罗恩工具。任何朝着正确方向的想法都可以! ...
我目前正在构建一个向用户发送事务性电子邮件的 API。我使用作业队列(特别是 bull)来实现这一点。在开发过程中,我突然想到了一个问题:这些作业实际上是在哪里执行的?目前,我通过 bull 将这些作业发送到计算机上的 docker 容器中运行的 redis 数据库。我的第一个想法是这些作业在 redis 容器中运行,但我认为这不是真的,因为该 redis 容器没有运行 NodeJS,而 NodeJS 正是我用于 API 的。 我认为这些作业实际上是在创建它们的同一台机器上执行的。但是,如果是这样的话,那么作业队列有什么好处呢?我认为作业队列的目的是将任务...
我使用此脚本重新启动 apache2 网络服务器,因为 letsencrypt ssl 更新过程在完成其操作后不会重新启动它。 当我通过停止服务器并运行脚本手动测试它时,它工作正常。但是,当它是运行的 cronjob 的一部分时,Web 服务器不会启动。但是在 /var/log/syslog 中,我有很多行表明它正在尝试启动 Web 服务器。 脚本如下: #!/bin/sh ps auxw | grep '/usr/sbin/apache2' | grep -v grep > /dev/null if [ $? != 0 ] then ...
有人知道如何获得SOS 作业调度器版本 1.13 可以在 Windows 上与 AdoptOpenJDK JDK 8 配合使用吗?Job Scheduler 本身似乎可以工作,但是 JOC 工具无法运行,因为找不到 JVM。 JOC 的 Windows 服务卡在“正在启动”状态,其日志文件中出现以下内容: [2019-12-08 12:14:36] [info] [ 2168] Commons Daemon procrun (1.0.15.0 64-bit) started [2019-12-08 12:14:37] [info] [ 2168] R...
我正在为参数化的 HashiCorp Nomad 作业编写模板。它的一个参数是priority,它应该是 0 到 100 之间的整数。 与其他工具一样,Nomad 支持变量插值,这样就可以在某个时候定义变量并在以后引用。Nomad 还允许定义“元”变量,这些变量在运行时传递并可在 HLC 文件中使用。 我想要做的事情如下: job "my-job" { parametrized { meta_required = ["TASK_PRIORITY"] } priority = "${NOMAD_META_TASK_...
我有一个系统,每天需要部署数十万个短期作业。每个作业的运行时间从几秒钟到几个小时不等。每个作业都会向外部 Web 服务器发出 HTTP 请求,将数据写入磁盘(从几兆字节到几百千兆字节不等),并与数据库建立一系列连接。 每个作业都是同一个 Docker 容器,运行同一个 Java 进程。每个作业都有不同的配置,以环境变量的形式传递。 我们目前使用“作业”规范在 Kubernetes 集群上部署这些作业。但是,当需要运行大量作业时,集群无法立即用于作业。我们还必须不断查询 Kubernetes 集群以确定作业是否已完成或被终止(例如内存不足)。 我希望找到...
我想编写一个表达式,让它在每天晚上 11 点执行,但月份的最后一天除外。 我几乎尝试了所有的网站,都没有得到答案 - 说除了月份的最后一天,它可以是 1-30 或 1-29 或 1-28 我在 Cloudwatch Cron 中尝试了这个表达式 - 但它似乎不正确。 0 23 1-L-1 * ? * 和, 0 23 */L-1 * ? * 通常与之相关的所有问题和答案都会回答如何跳过每月的第一天,即 2-L 这样的天数,但没有回答如何挑选所有天数而不是每月的最后一天。 提前致谢! ...