如何查找网卡故障的根本原因

如何查找网卡故障的根本原因

最近遇到一个很疑惑的问题,我们基于某款NPU设备进行AI训练,训练过程中经常会读写某个NFS目录的数据,训练过程中发现网络设备处于down状态。

我们尝试执行 ip link set dev xxxx up,结果发现它对该设备的实际状态没有任何影响。它保持关闭状态,直到我们重新启动机器。

通过系统日志(ubuntu 18.04)和 NIC 驱动程序日志,我们知道卡或卡上的驱动程序有问题。驱动程序不断抱怨“更新 mac 统计信息失败,获取 mac pkt 统计信息失败”等。

最有趣和最困难的事情是弄清楚哪些应用程序行为会触发此问题以及它是如何发生的。

用户空间应用程序如何导致 NIC 故障?在没有 NIC 驱动程序源代码的情况下,是否可以弄清楚那里发生了什么?

请帮我解释一下,或者给我一些关于如何解决这个问题的建议,或者列出一些相关的文档。

答案1

我遇到过类似的问题,我的 Solarflare 卡的接口在某些工作负载下会关闭。我注意到,卸载并加载sfc负责驱动卡的内核模块就足够了。

我不知道您正在运行什么硬件,也不知道实际的错误是什么,但看看卸载和加载内核模块是否有帮助(注意丢失网络连接)。您还可以尝试升级卡上的固件。

相关内容