自发卸载 NFS 导出和 nicstat 网络活动

自发卸载 NFS 导出和 nicstat 网络活动

我们有一台服务器导出两个巨大的分区(一个是 61 TB,另一个是 28 TB),并且当安装在另一台机器上时,我们有很多用户正在读取和写入这些分区。

我们有单独的用户抱怨这些挂载会自发地被卸载和重新挂载,这会中断正在进行的 MATLAB 作业等工作。我要求投诉者给我一个时间范围,同时将其设置为在过去nicstat -i eth0 3几个小时内运行(每三秒检查一次 NIC 利用率)并打算让它继续运行。我正在将结果写入日志,以便我可以检查它们,并希望在发生意外/不受欢迎的卸载时将它们交叉引用。用户还没有回复我。

基本上,我快速浏览了长期以来 nicstat 的结果,有两件事让我印象深刻,但我不确定它们是否可以被视为正常。

每隔一段时间(大约每两小时一次),活动量就会突然下降

    Time      Int   rKB/s   wKB/s   rPk/s   wPk/s    rAvs    wAvs %Util    Sat
21:13:04     eth0 48057.5 30790.5 35560.6 23086.0  1383.9  1365.7  64.6   0.00
21:13:07     eth0  5438.7 12064.3  4697.4  8237.9  1185.6  1499.6  14.3   0.00
21:13:10     eth0    2.98    0.09    8.67    1.33   351.7   66.00  0.00   0.00
21:13:13     eth0    0.87    0.04    3.33    0.67   266.6   66.00  0.00   0.00
21:13:16     eth0    0.65    0.02    4.33    0.33   153.9   66.00  0.00   0.00
21:13:19     eth0    1.41    0.08    3.67    1.33   393.9   60.00  0.00   0.00
21:13:22     eth0    0.87    0.04    3.00    0.67   298.2   66.00  0.00   0.00
21:13:25     eth0    0.40    0.03    3.00    0.67   137.8   42.00  0.00   0.00
21:13:28     eth0    0.16    0.00    2.67    0.00   60.00    0.00  0.00   0.00
21:13:31     eth0 68692.2 60637.2 53586.2 46664.5  1312.7  1330.6   100   0.00

每隔一段时间(大约每小时一次),就会出现一次巨大的峰值

    Time      Int   rKB/s   wKB/s   rPk/s   wPk/s    rAvs    wAvs %Util    Sat
21:49:31     eth0  2423.2 64807.9  6604.5 44182.7   375.7  1502.0  55.1   0.00
21:49:34     eth0 53528.0 53388.1 40204.7 38932.1  1363.3  1404.2  87.6   0.00
21:49:37     eth0  1283.3 55824.3  5041.1 38035.3   260.7  1502.9  46.8   0.00
21:49:40     eth0  1330.6 57297.0  5488.8 39000.1   248.2  1504.4  48.0   0.00
21:49:43     eth0  3311.9 61186.1  7687.9 41753.8   441.1  1500.6  52.8   0.00
21:49:46     eth0 25882.2 54957.0 23886.9 39327.8  1109.5  1430.9  66.2   0.00
21:49:49     eth0 67499.1 54285.2 57065.7 41844.6  1211.2  1328.4  99.8   0.00
21:49:52     eth0 75769.3 45597.8 60522.3 36384.9  1282.0  1283.3  99.4   0.00
21:49:55     eth0 65356.3 49854.2 54671.6 38437.2  1224.1  1328.2  94.4   0.00
21:49:58     eth0 72088.5 50239.6 58650.0 39578.6  1258.6  1299.8   100   0.00
21:50:01     eth0 71629.2 50227.4 59794.7 39317.1  1226.7  1308.2  99.8   0.00
21:50:04     eth0 70348.0 52802.9 58990.7 40937.5  1221.1  1320.8   100   0.00
21:50:07     eth0 69576.3 54797.4 58773.3 42931.5  1212.2  1307.0   100   0.00
21:50:10     eth0  112908 40154.3 83073.2 35212.8  1391.8  1167.7   100   0.00
21:50:13     eth0  103493 47422.6 78465.8 39654.2  1350.6  1224.6   100   0.00
21:50:16     eth0 68535.5 53543.9 57525.4 41778.5  1220.0  1312.4   100   0.00
21:50:19     eth0 76412.5 49362.7 61296.4 38985.3  1276.5  1296.6   100   0.00
21:50:22     eth0 74091.6 54256.3 57072.8 42506.2  1329.4  1307.1   100   0.00

这些观察结果值得注意吗?它们是否与此 NIC 活动导致机器与导出文件系统的连接丢失有关?

答案1

这很可能是自动挂载程序出了问题,或者仅仅是网络连接负担过重。

NFS 自动挂载可能很棘手;有时在活动时会超时,有时在不应该连接时保持连接。您看到的峰值可能是重新连接狂潮。

请注意,行为不当的作业、用户或网络(您的 NIC 使用率长时间达到 100%!)也可能会导致某些客户端认为 NFS 服务器已经出问题。

除此之外,为了进一步调查,NFS 指南是一个好的开始。

相关内容