创建CPU/GPU/内存负载平均历史记录

创建CPU/GPU/内存负载平均历史记录

在我们的研究小组中,我们正在运行一个用于深度学习的计算服务器,其中包含多个 NVIDIA Titan X 显卡和相当多的 CPU 内核。鉴于这是一个研究实验室,我们有大约 10 个人使用这台机器,CPU/GPU 核心上的负载几乎总是很高。

我现在负责显示机器使用过度,我可以建议硬件升级。为了论证,我想创建机器上 CPU/GPU/MEM 使用情况的详细历史记录。问题是,我不知道适合这项工作的工具。当然,我可以编写一些脚本,但我更喜欢现成的工具,因为我不是系统管理员:) 为了监视 CPU/GPU 使用情况,我通常使用nvidia-smihtop,但这些不适合生成长期历史记录。

关于创造这样的历史有什么建议吗?

相关内容