如何检查 aws ec2 gpu 实例上的 gpu 使用情况?

如何检查 aws ec2 gpu 实例上的 gpu 使用情况?

我在 AWS ec2 上运行 ubuntu gpu 实例。我不确定我的应用程序是否正在使用 gpu 加速。那么如何检查 aws gpu 实例上的 gpu 使用情况?

答案1

  • 使用:nvidia-smi -h查看选项。

  • 显示信息参数:

Display only selected information: MEMORY,
                                    UTILIZATION, ECC, TEMPERATURE, POWER, CLOCK,
                                    COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS,
                                    PAGE_RETIREMENT, ACCOUNTING, ENCODER STATS 
  • 例子:nvidia-smi --id=0 --loop=5 --query --display=UTILIZATION

    • --id=0GPU 编号。用于nvidia-smi --list-gpus获取 GPU 列表
    • --query显示 GPU 或单元信息
    • --loop=5每 5 秒重复一次查询。
    • -display=UTILIZATION仅显示利用率
  • 输出类似于:

==============NVSMI LOG==============

Timestamp                           : Thu Apr 11 03:48:37 2019
Driver Version                      : 384.183
CUDA Version                        : 9.0

Attached GPUs                       : 1
GPU 00000000:00:1E.0
    Utilization
        **Gpu                         : 9 %**
        Memory                      : 11 %
        Encoder                     : 0 %
        Decoder                     : 0 %
    GPU Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 10 %
        Min                         : 0 %
        Avg                         : 0 %
    Memory Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 14 %
        Min                         : 0 %
        Avg                         : 0 %
    ENC Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 0 %
        Min                         : 0 %
        Avg                         : 0 %
    DEC Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 0 %
        Min                         : 0 %
        Avg                         : 0 %

您还可以记录到文件(--filename=)并输出 CSV(--format=csv)。

答案2

这是 NVIDIA 设备吗?如果是,请尝试nvidia-smi -i 3 -l -q -d查看 GPU 和内存利用率统计信息(以及其他信息)。请注意,这仅适用于 1) 旧 nvidia 驱动程序 (18X.XX) 或 2) NVIDIA Tesla GPU。

相关内容