gridengine

CPU 过热?
gridengine

CPU 过热?

我有一台安装了 SGE 的运行 Ubuntu Server 18.04 的 Dell 5820。我设置了一个 20 个槽位的队列,其中同时运行着 20 个作业。% CPU 上升到 70% 左右,我有 128GB,所以没有问题。 我担心 CPU 过热。我查看了手表传感器并看到: coretemp-isa-0000 Adapter: ISA adapter Package id 0: +82.0°C (high = +81.0°C, crit = +91.0°C) Core 0: +80.0°C (high = +81.0°C, crit...

Admin

Linux 系统中交换区的大小有关系吗
gridengine

Linux 系统中交换区的大小有关系吗

如果 Linux 中的交换区域大小设置得太小(比如 1Gb),而主 RAM 又太大,这有关系吗128Gb? 我们是否应该始终将交换区域的数量设置为 RAM 数量的两倍? 更新: 嗨,谢谢大家回答这个问题。事实上,我有这个问题是因为我们在使用小型集群系统时遇到了一些问题。问题发布在这里下面这张图是这个小集群里部分计算机的一些信息。 是MEMTOT该机器的RAM总量, 是SWAPTO该机器的SWAP区域总量, 是SWAPUSSWAP区域的使用量。如图所示,SWAP的使用量确实很少。 当尝试解决发布在这里,不知道是不是SWAP区域设置过小了,只是1G...

Admin

使 SGE 作业输出标准输出到源终端
gridengine

使 SGE 作业输出标准输出到源终端

我想将单个作业提交给 Sun Grid Engine,并使它们看起来像是在本地执行。而不是创建 stdout 和 stderr 文件以将它们输出到调用终端 stdout 和 stderr。 根据这一页 -k oe将保持标准输出或标准错误流将保留在执行主机上。 但是当我尝试这个命令时: qsub -cwd -sync yes -k oe -N "test" -V "helloworld.sh" 我得到: qsub: ERROR! invalid option argument "-k" 工具版本: which qsub=>... sge...

Admin

无法让 Bash 在 SGE 上与 Python 一起工作
gridengine

无法让 Bash 在 SGE 上与 Python 一起工作

我目前正在使用 SGE,对 Linux 环境非常陌生。我必须执行 Python 脚本,但设置对我来说有点混乱,我无法让它工作。 设置如下:默认安装的 python 是 2.4,我需要使用 2.7 和一些库。 然后我将我需要的所有内容链接到以下几行: export LD_LIBRARY_PATH=/home/volatile/xxx/local/lib:$LD_LIBRARY_PATH export LD_RUN_PATH=/home/volatile/xxx/local/lib:$LD_RUN_PATH export PATH=/home/volati...

Admin

网格引擎/多线程/多核/多 CPU:如何确定最佳线程数?
gridengine

网格引擎/多线程/多核/多 CPU:如何确定最佳线程数?

我在各种服务器和集群上使用 unix/linux(各种版本)下的程序 (*),该程序支持多线程。我可以通过命令行选项指定我想要的线程数。 一般来说,我如何确定应该为多线程指定多少个线程(以获得最大速度)? 线程数是否应该低于/等于相应 CPU 支持的硬件线程数?是否有任何经验法则或起点? 如果是,那么我如何才能知道 CPU 支持多少个硬件线程? 我还应该提到,我通常在运行此程序的计算机上有多个 CPU,每个 CPU 都有多个核心。不清楚一个核心是否等于一个线程。 (*) 我使用的程序是 bwa,一个用于比对 DNA 序列的程序。但我的问题本质上是一...

Admin

Sun Grid Engine 上的 shell 脚本出现“未定义变量”错误
gridengine

Sun Grid Engine 上的 shell 脚本出现“未定义变量”错误

我有以下 Sun Grid Engine 提交脚本: #!/bin/sh # sun grid engine cluster # use current working directory #$ -cwd # merge error output into standard output stream #$ -j yes #$ -o generate_databases.log # request to cpu number #$ -pe make 4 currentdir=`/bin/pwd` echo "current working dir...

Admin

安装 Grid Engine“无法访问 qmaster”
gridengine

安装 Grid Engine“无法访问 qmaster”

我想在我的笔记本电脑上安装 Grid Engine。 我在 VirtualBox 4.1.6 下使用 Ubuntu 11.10。 (安装 Grid Engine 的目的不是为了计算任何东西,我只是想要一个可以工作的 Grid Engine 环境,以便能够尝试使用 bash 脚本进行数组作业等。我运行的作业只会“睡眠”,因此集群只包含一个节点。我的笔记本电脑有双核 CPU,但我不知道这是否与此相关。) 我正在遵循http://astoryworthtelling.wordpress.com/2009/08/25/installing-sge-on-ubu...

Admin

在单台机器上安装 Sun/Oracle Grid Engine
gridengine

在单台机器上安装 Sun/Oracle Grid Engine

我想在我的笔记本电脑上完全安装一个 Grid Engine 集群,这个“集群”只有两个节点,一个是头节点,一个是计算节点。这些节点应该在同一操作系统 (ubuntu 11.10) 的同一实例中运行,每个“节点”应该分配给一个核心(我有一台双核笔记本电脑)。我的问题是:这可行吗?如果可以,怎么做? 关于我为什么要这样做的一些背景信息:我在工作中使用网格引擎,它在一个具有许多节点的真实集群上,每个节点都有多个 CPU,但在那里我只被允许运行某些关键任务计算。我想用数组作业尝试一些事情,这些作业绝对不需要大量计算,所以我只需要安装一个网格引擎来玩就可以了。所以我...

Admin

如何恢复 Berkeley DB(包含在 Sun Grid Engine 安装中)?
gridengine

如何恢复 Berkeley DB(包含在 Sun Grid Engine 安装中)?

我在 CentOS 5 上。 [root@newjanux spooldb]# uname -a Linux newjanux 2.6.18-164.el5 #1 SMP Thu Sep 3 03:28:30 EDT 2009 x86_64 x86_64 x86_64 GNU/Linux 和 SGE 6.2u2 我已经备份了原始数据库以防万一……berkeley db 因损坏而无法启动。软件包中附带了修复此问题的工具,但它失败了(以同样的方式): [root@newjanux spooldb]# /opt/sge/utilbin/lx24-amd6...

Admin

qdel 删除了我的所有作业
gridengine

qdel 删除了我的所有作业

我在服务器上使用 Sun GridEngine(Rocks Cluster)来运行远程作业。 当我尝试使用 删除作业时qdel,它通常按预期工作,但时不时它会删除它找到的几乎所有内容。 例如,今天某个时候,我有 77 个正在运行的作业: [znorg@server MD]$ qstat 作业 ID 先前名称 用户状态 提交/开始于队列槽 ja-task-ID --------------------------------------------------------------------------------------------------...

Admin

sge:如何设置节点的硬限制?
gridengine

sge:如何设置节点的硬限制?

负责管理我们集群的人最近突然去世了,所以现在我们必须自己操作,直到有新人来接手。我们想更改集群上某个节点的硬运行时限制。出于某种原因,队列中的所有节点都具有所需的硬运行时限制,但其中一个节点没有。 如何为给定的 x 设置 h_rt=x? ...

Admin

如何限制主机在 gridengine 上为每个作业使用 1 个插槽?
gridengine

如何限制主机在 gridengine 上为每个作业使用 1 个插槽?

我在我的集​​群上运行 gridengine,并且希望有一个主队列,其中每个作业在主主机上只能有一个插槽。但我找不到配置它的方法。我了解到资源限制不会影响作业。所以类似 limit host{master.node.001} slots=1 限制每个用户一个位置 :-( 但是如果我像这样提交 qsub -pe myenv-pe 20 -masterq xyz.q -q abc-slaves ...etc pp. 结果是,我在主机上获得了 3 个执行进程,但我希望主机上每个作业只占用 1 个插槽。有没有办法配置它? ...

Admin

查看/请求 SGE 主机上可用的指令集
gridengine

查看/请求 SGE 主机上可用的指令集

如何查看或请求可以处理 SGE 中的特定指令集的主机? 使用 Slurm,我可以查看每台主机上可用的指令集 sinfo --Node -o '%n %f',并仅向例如具有 AVX2 指令集的主机提交批处理作业#SBATCH constraint=avx2。 我如何在 SGE 中执行此操作? 编辑:到目前为止,我已经想出了使用qhost | tail -n +4 | tr -s ' ' | cut -f 2 -d ' ' | sort -u来查看所有可用的芯片架构。然后我可以查找哪些支持特定指令集并使用 来请求这些架构qsub ... -l arch='&l...

Admin

如何创建只能手动分配作业的 SGE 队列?
gridengine

如何创建只能手动分配作业的 SGE 队列?

我在 SGE 集群中有 5 个节点。我想让其中一个节点仅供特定队列“test.q”使用。 我可以从所有其他队列的主机列表中删除该节点,并将主机列表设置为 test.q 中的该主机。 但是,当我这样做时,未指定特定队列的作业有时仍会出现在 test.q 中。 我如何配置才能让 test.q 只在有人具体来说请求 test.q? ...

Admin

如何允许使用作业共享(-js)并发执行作业数组
gridengine

如何允许使用作业共享(-js)并发执行作业数组

我正在尝试让 SGE 根据 qsub 的作业份额参数并发运行作业阵列任务,但似乎没有按预期工作。有没有办法根据份额启用并发任务执行? 我有一个脚本,它可以休眠来模拟长时间运行的任务,我将它作为不同的作业数组提交给一个小型 SGE 集群(26 个插槽),如下所示: qsub -t 1-201 -js 100 sge_longRunning.sh qsub -t 1-202 -js 101 sge_longRunning.sh qsub -t 1-203 -js 102 sge_longRunning.sh 我希望这些任务能够随着时间的推移几乎均匀地分布...

Admin