识别导致 GPU 应用程序服务器暂时停止运行的事件

识别导致 GPU 应用程序服务器暂时停止运行的事件

我正在运行 4 个密集型应用程序(在 GPU 上训练机器学习模型),这些应用程序会定期打印有关它们在 Linux 14.04 机器上运行速度的信息。奇怪的是,服务器速度变慢了大约 2.5 小时,这些应用程序的运行速度比平时慢了 3 倍。据我所知,在发生这种情况之前/期间/之后,服务器或应用程序没有任何变化。我以前在同一台服务器上遇到过类似的事情,但我没有进一步调查。

运行过程中htopiotop停滞期间没有出现任何迹象,因为 CPU 使用率很低,6/12 个内核几乎完全未使用,内存使用率很低(使用了 16/64 GB),并且 I/O 活动很少。服务器的 4 个 GPU 中的每一个都有 95% 的内存分配给这些密集型应用程序的单个实例。在应用程序运行时,这不会改变。应用程序一遍又一遍地执行相同的操作(矩阵乘法),因此速度减慢应该与应用程序引起的任何活动无关。

我如何确定导致我的应用程序停滞的原因是什么?

相关内容