job-scheduler

Slurm：如何找出给定节点上未分配的内存量

我是 SLURM 新手。我正在寻找一种方便的方式来查看节点/节点列表中有多少内存可用于我的 srun 分配。我已经尝试过 sinfo、scontrol 和 sstat，但它们都无法通过一个舒适的概览为我提供我需要的信息。我曾想过编写一个 shell 脚本，以便从 scontrol 中获取所有作业的所有字段并将它们汇总起来。但一定有更简单的方法。如果有人能提供提示或想法就太好了！ ...

Admin 2024-6-2

job-scheduler

在 Linux 服务器中安装后 Dolphin Scheduler UI 未打开 - 3.1.8、Linux 9

团队，Dolphin Scheduler ver - 3.1.8 安装在 Linux RHEL 9.0 中安装 Zookeeper 后，MySQL 和所有服务（Api 服务器、主服务器、工作服务器、警报服务器）均成功启动。即使我给出以下命令 curl -Lv http://localhost:12345/dolphinscheduler/ui 也会返回成功，即 200 代码。如何在 Web 浏览器中打开 Dolphin Scheduler UI？或者 Linux 服务器需要的任何其他设置？ ...

Admin 2024-6-2

job-scheduler

SLURM 能够发送 CPU，但不能发送 GPU 作业

我已经构建了一个 slurm“集群”（目前只有一个作业服务器和单个计算服务器），并尝试在其上运行作业。我可以很好地运行 CPU 作业，它会将它们发送到机器并运行它们。但是，当我尝试运行 GPU 作业时，它永远不会将其发送到机器。根据 slurmctld 日志，它找到了该节点并认为它可用。它只是从不将作业发送到机器。以下是配置文件和日志： slurm.conf # slurm.conf file generated by configurator.html. # Put this file on all nodes of your cluster. # Se...

Admin 2024-6-2

job-scheduler

在 autosys 主机中，会自动创建一个特定路径的 .lck 文件

我们有一个 autosys 主机，特别是活动路径，会自动创建 .lck 文件。因此，我们可以看到成功运行，但我们的门户并未按照每 5 分钟安排的作业运行进行同步。尽管作业已成功运行，但仍观察到门户同步过程中的一些延迟。我们还可以看到 .lck 文件正在活动路径下生成。我们尝试删除它们，但它们仍然会生成。删除 .lck 文件后，我们可以看到门户正在正确同步。有人可以协助处理此案吗？谢谢 ...

Admin 2024-6-2

job-scheduler

Cron Jobs 不会一直运行（仅在部分小时内运行）

我在一个网站上工作，该网站使用 cron 作业来导入和更新产品。平台是 Woocommerce。供应商提供了 csv 文件和服务器要求。我要求的配置是：32GB RAM、16vCore、400GB 空间。问题是，这项工作每小时只工作几分钟……3 到 10 分钟之间，即使他有很多待处理的工作。我的意思是，例如，从 09:00 到 09:10，工作在进行，然后停止，他从 10:08 重新开始，一直工作到 10:15。然后从 11:10 到 11:20。我不明白为什么。这是 cron 作业设置：分钟小时日月星期几 * * * * * /usr/bin/...

Admin 2024-6-2

job-scheduler

有人知道在小型集群计算机上运行的“IBM Spectrum LSF”的粗略许可定价吗？

有人知道在小型集群计算机上运行的“IBM Spectrum LSF”的大致许可定价吗？他们如何授权该产品？ ...

Admin 2024-6-1

job-scheduler

如何从不同的应用程序触发 k8s Job？

我将简要描述我的应用程序工作流程：我有一个应用程序（cronjob），该应用程序读取我的数据库，我想根据数据库的输出在 Kubernetes 中运行一些作业。有时是 1 个作业，有时是 10 个作业，这取决于具体情况。此外，我想将一些环境传递给此作业。此外，我在 GCP（Autopilot）上运行 Kubernetes 集群，因此我不希望任何 pod 一直运行。因此，Tekton 中的 EventListener 不是一个好选择，因为 Kubernetes 服务在专用 Pod 内运行接收器逻辑。我怎样才能以最合适的方式做到这一点？也许我应该使用 K8s ...

Admin 2024-6-1

job-scheduler

具有冗余/负载平衡的“分散式”作业管理

我搜索了本地进程的作业管理解决方案。通常它们会运行数周。目前我使用的是 jenkins，但服务器无法重新启动（安全更新）并且没有冗余。如果一台服务器离线，则所有作业都应重新平衡到在线服务器。只需使用相同的参数重新启动脚本即可，但应该可以禁用此行为。此外，添加/删除新服务器也应该很容易。我不需要一个完整的解决方案，但我搜索了这样的软件，并没有真正找到我想要的东西。我很感激任何指向正确方向的提示（也是搜索关键词）。我基本上只是找到了 CI 软件，但我想要一个服务器容错解决方案。 ...

Admin 2024-6-1

job-scheduler

如果重启频率极低（大约每年一到两次），有没有办法处理 CRON 任务的主机重启？

正如另一个问题中提到的：使用 crontab 进行作业调度，如果在此期间计算机关闭，会发生什么？那克罗恩在关机/重启情况下作业将无法工作，我们可以使用阿纳克隆对于这种情况就我的情况而言，有很多克罗恩作业安排和主机重启的机会很小，一年只有一到两次，其余时间主机都在运行，并且从克罗恩到阿纳克隆可能没有必要。我的计划任务任务是在 CentOS 机器上分配的。有什么办法吗？我是新手克罗恩工具。任何朝着正确方向的想法都可以！ ...

Admin 2024-6-1

job-scheduler

作业队列有啥好处呢？

我目前正在构建一个向用户发送事务性电子邮件的 API。我使用作业队列（特别是 bull）来实现这一点。在开发过程中，我突然想到了一个问题：这些作业实际上是在哪里执行的？目前，我通过 bull 将这些作业发送到计算机上的 docker 容器中运行的 redis 数据库。我的第一个想法是这些作业在 redis 容器中运行，但我认为这不是真的，因为该 redis 容器没有运行 NodeJS，而 NodeJS 正是我用于 API 的。我认为这些作业实际上是在创建它们的同一台机器上执行的。但是，如果是这样的话，那么作业队列有什么好处呢？我认为作业队列的目的是将任务...

Admin 2024-6-1

job-scheduler

为什么该脚本无法启动 apache 网络服务器？

我使用此脚本重新启动 apache2 网络服务器，因为 letsencrypt ssl 更新过程在完成其操作后不会重新启动它。当我通过停止服务器并运行脚本手动测试它时，它工作正常。但是，当它是运行的 cronjob 的一部分时，Web 服务器不会启动。但是在 /var/log/syslog 中，我有很多行表明它正在尝试启动 Web 服务器。脚本如下： #!/bin/sh ps auxw | grep '/usr/sbin/apache2' | grep -v grep > /dev/null if [ $? != 0 ] then ...

Admin 2024-6-1

job-scheduler

让 SOS Job Scheduler 1.13 与 AdoptOpenJDK 配合使用

有人知道如何获得SOS 作业调度器版本 1.13 可以在 Windows 上与 AdoptOpenJDK JDK 8 配合使用吗？Job Scheduler 本身似乎可以工作，但是 JOC 工具无法运行，因为找不到 JVM。 JOC 的 Windows 服务卡在“正在启动”状态，其日志文件中出现以下内容： [2019-12-08 12:14:36] [info] [ 2168] Commons Daemon procrun (1.0.15.0 64-bit) started [2019-12-08 12:14:37] [info] [ 2168] R...

Admin 2024-6-1

job-scheduler

在 HLC 文件中将值插入为整数

我正在为参数化的 HashiCorp Nomad 作业编写模板。它的一个参数是priority，它应该是 0 到 100 之间的整数。与其他工具一样，Nomad 支持变量插值，这样就可以在某个时候定义变量并在以后引用。Nomad 还允许定义“元”变量，这些变量在运行时传递并可在 HLC 文件中使用。我想要做的事情如下： job "my-job" { parametrized { meta_required = ["TASK_PRIORITY"] } priority = "${NOMAD_META_TASK_...

Admin 2024-6-1

job-scheduler

每天部署数十万个短期作业

我有一个系统，每天需要部署数十万个短期作业。每个作业的运行时间从几秒钟到几个小时不等。每个作业都会向外部 Web 服务器发出 HTTP 请求，将数据写入磁盘（从几兆字节到几百千兆字节不等），并与数据库建立一系列连接。每个作业都是同一个 Docker 容器，运行同一个 Java 进程。每个作业都有不同的配置，以环境变量的形式传递。我们目前使用“作业”规范在 Kubernetes 集群上部署这些作业。但是，当需要运行大量作业时，集群无法立即用于作业。我们还必须不断查询 Kubernetes 集群以确定作业是否已完成或被终止（例如内存不足）。我希望找到...

Admin 2024-6-1

job-scheduler

AWS Cron 表达式-每天晚上 11 点，但每月最后一天除外

我想编写一个表达式，让它在每天晚上 11 点执行，但月份的最后一天除外。我几乎尝试了所有的网站，都没有得到答案 - 说除了月份的最后一天，它可以是 1-30 或 1-29 或 1-28 我在 Cloudwatch Cron 中尝试了这个表达式 - 但它似乎不正确。 0 23 1-L-1 * ? * 和， 0 23 */L-1 * ? * 通常与之相关的所有问题和答案都会回答如何跳过每月的第一天，即 2-L 这样的天数，但没有回答如何挑选所有天数而不是每月的最后一天。提前致谢！ ...

Admin 2024-6-1