我的集群中有三个 Nvidia GPU,并且集群中运行着许多 pod。我如何才能找到其中哪一个 pod 调度了 GPU 以及它们调度了多少个 GPU?
我使用此链接在我的集群中为 Nvidia GPU 启用 GPU 调度。 https://kubernetes.io/docs/tasks/manage-gpus/scheduling-gpus/
谢谢
答案1
以下是 kubectl 插件给出的示例,kubectl-view-分配:
> kubectl-view-allocations -r gpu
Resource Requested Limit Allocatable Free
nvidia.com/gpu (71%) 10.0 (71%) 10.0 14.0 4.0
├─ node-gpu1 (0%) __ (0%) __ 2.0 2.0
├─ node-gpu2 (0%) __ (0%) __ 2.0 2.0
├─ node-gpu3 (100%) 2.0 (100%) 2.0 2.0 __
│ └─ fah-gpu-cpu-d29sc 2.0 2.0 __ __
├─ node-gpu4 (100%) 2.0 (100%) 2.0 2.0 __
│ └─ fah-gpu-cpu-hkg59 2.0 2.0 __ __
├─ node-gpu5 (100%) 2.0 (100%) 2.0 2.0 __
│ └─ fah-gpu-cpu-nw9fc 2.0 2.0 __ __
├─ node-gpu6 (100%) 2.0 (100%) 2.0 2.0 __
│ └─ fah-gpu-cpu-gtwsf 2.0 2.0 __ __
└─ node-gpu7 (100%) 2.0 (100%) 2.0 2.0 __
└─ fah-gpu-cpu-x7zfb 2.0 2.0 __ __
似乎提供了您正在寻找的东西。
此外显然,共享 GPU 是可能的(使用 Nvidia 提供的软件) - 可能对您或将来发现这一点的人有用: