通过 NFS 重启暂时解决高 CPL 问题

通过 NFS 重启暂时解决高 CPL 问题

CentOS 6.9

我有一个 NFS (v4) 文件服务器,其导出今天在客户端上的响应速度开始变得非常慢。发生这种情况时,导出的卷在服务器本身上并不慢。

atop 显示出非常高的 CPL 值 (> 100)。除此之外,看起来没有什么不寻常的。

如果我重新启动 nfs ( service nfs restart),CPL 值会迅速开始下降,并且客户端上的卷会再次响应。但是 2 或 3 分钟后,CPL 值又开始上升。

当我重新启动 nfs 时,dmesg 除了一些消息外不显示任何内容。

/var/log/messages 没有显示任何相关内容



   CPL  CPU load information.
        This  line contains the load average figures reflecting the number of threads that are available to run on a CPU (i.e. part of the runqueue) or that are wait‐
        ing for disk I/O. These figures are averaged over 1 (`avg1'), 5 (`avg5') and 15 (`avg15') minutes.
        Furthermore the number of context switches (`csw'), the number of serviced interrupts (`intr') and the number of available CPUs are shown.

我认为从中可以得出一个重要结论waiting for disk I/O。我敢打赌,一个客户端正在尝试对磁盘进行一些奇怪的操作,这会导致其他客户端的速度变慢。您是否检查过正在使用哪种网络带宽?链接是否完全饱和?
