我们有一台服务器导出两个巨大的分区(一个是 61 TB,另一个是 28 TB),并且当安装在另一台机器上时,我们有很多用户正在读取和写入这些分区。
我们有单独的用户抱怨这些挂载会自发地被卸载和重新挂载,这会中断正在进行的 MATLAB 作业等工作。我要求投诉者给我一个时间范围,同时将其设置为在过去nicstat -i eth0 3
几个小时内运行(每三秒检查一次 NIC 利用率)并打算让它继续运行。我正在将结果写入日志,以便我可以检查它们,并希望在发生意外/不受欢迎的卸载时将它们交叉引用。用户还没有回复我。
基本上,我快速浏览了长期以来 nicstat 的结果,有两件事让我印象深刻,但我不确定它们是否可以被视为正常。
每隔一段时间(大约每两小时一次),活动量就会突然下降:
Time Int rKB/s wKB/s rPk/s wPk/s rAvs wAvs %Util Sat
21:13:04 eth0 48057.5 30790.5 35560.6 23086.0 1383.9 1365.7 64.6 0.00
21:13:07 eth0 5438.7 12064.3 4697.4 8237.9 1185.6 1499.6 14.3 0.00
21:13:10 eth0 2.98 0.09 8.67 1.33 351.7 66.00 0.00 0.00
21:13:13 eth0 0.87 0.04 3.33 0.67 266.6 66.00 0.00 0.00
21:13:16 eth0 0.65 0.02 4.33 0.33 153.9 66.00 0.00 0.00
21:13:19 eth0 1.41 0.08 3.67 1.33 393.9 60.00 0.00 0.00
21:13:22 eth0 0.87 0.04 3.00 0.67 298.2 66.00 0.00 0.00
21:13:25 eth0 0.40 0.03 3.00 0.67 137.8 42.00 0.00 0.00
21:13:28 eth0 0.16 0.00 2.67 0.00 60.00 0.00 0.00 0.00
21:13:31 eth0 68692.2 60637.2 53586.2 46664.5 1312.7 1330.6 100 0.00
每隔一段时间(大约每小时一次),就会出现一次巨大的峰值:
Time Int rKB/s wKB/s rPk/s wPk/s rAvs wAvs %Util Sat
21:49:31 eth0 2423.2 64807.9 6604.5 44182.7 375.7 1502.0 55.1 0.00
21:49:34 eth0 53528.0 53388.1 40204.7 38932.1 1363.3 1404.2 87.6 0.00
21:49:37 eth0 1283.3 55824.3 5041.1 38035.3 260.7 1502.9 46.8 0.00
21:49:40 eth0 1330.6 57297.0 5488.8 39000.1 248.2 1504.4 48.0 0.00
21:49:43 eth0 3311.9 61186.1 7687.9 41753.8 441.1 1500.6 52.8 0.00
21:49:46 eth0 25882.2 54957.0 23886.9 39327.8 1109.5 1430.9 66.2 0.00
21:49:49 eth0 67499.1 54285.2 57065.7 41844.6 1211.2 1328.4 99.8 0.00
21:49:52 eth0 75769.3 45597.8 60522.3 36384.9 1282.0 1283.3 99.4 0.00
21:49:55 eth0 65356.3 49854.2 54671.6 38437.2 1224.1 1328.2 94.4 0.00
21:49:58 eth0 72088.5 50239.6 58650.0 39578.6 1258.6 1299.8 100 0.00
21:50:01 eth0 71629.2 50227.4 59794.7 39317.1 1226.7 1308.2 99.8 0.00
21:50:04 eth0 70348.0 52802.9 58990.7 40937.5 1221.1 1320.8 100 0.00
21:50:07 eth0 69576.3 54797.4 58773.3 42931.5 1212.2 1307.0 100 0.00
21:50:10 eth0 112908 40154.3 83073.2 35212.8 1391.8 1167.7 100 0.00
21:50:13 eth0 103493 47422.6 78465.8 39654.2 1350.6 1224.6 100 0.00
21:50:16 eth0 68535.5 53543.9 57525.4 41778.5 1220.0 1312.4 100 0.00
21:50:19 eth0 76412.5 49362.7 61296.4 38985.3 1276.5 1296.6 100 0.00
21:50:22 eth0 74091.6 54256.3 57072.8 42506.2 1329.4 1307.1 100 0.00
这些观察结果值得注意吗?它们是否与此 NIC 活动导致机器与导出文件系统的连接丢失有关?
答案1
这很可能是自动挂载程序出了问题,或者仅仅是网络连接负担过重。
NFS 自动挂载可能很棘手;有时在活动时会超时,有时在不应该连接时保持连接。您看到的峰值可能是重新连接狂潮。
请注意,行为不当的作业、用户或网络(您的 NIC 使用率长时间达到 100%!)也可能会导致某些客户端认为 NFS 服务器已经出问题。
除此之外,为了进一步调查,NFS 指南是一个好的开始。