df 与 du 有很大不同,nfsd 服务似乎很重要

df 与 du 有很大不同,nfsd 服务似乎很重要

我知道关于 df/du 差异主题已经有很多讨论。但在这里我想发布一个特殊问题并寻求一些提示。以下是详细信息(使用带有 6 个 sas 磁盘的硬件 raid5)

  1. nfs 服务器/客户端的系统信息: [root@ndio06 ~]# cat /etc/发布|grep CentOS CentOS Linux 版本 7.6.1810(核心) NAME="CentOS Linux" PRETTY_NAME="CentOS Linux 7(核心)" CENTOS_MANTISBT_PROJECT="CentOS-7" CentOS Linux 版本 7.6.1810(核心) [root@ndio06 ~]# uname -a Linux ndio06 3.10.0-957.el7.x86_64 #1 SMP 星期四 11 月 8 日 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux [root@ndio06 ~]# rpm -qa|grep nfs-util nfs-utils-1.3.0-0.61.el7.x86_64

NFS 服务器通常处于重负载状态,为 48 个繁忙的节点提供服务,并进行大量进程和 io 操作。

  1. df/du 没有对齐,而且差距很大:[root@ndio06 ~]# df -hl /CAE;du -sh /CAE Filesystem Size Used Avail Use% Mounted on /dev/sdb1 5.0T 3.6T 1.4T 73% /CAE 736G /CAE

  2. nfs 服务器或 40 多个客户端上没有“已删除但正在使用”的文件:[root@pbs ~]# for node in pestat|grep ndpam02|awk {'print $1'}|grep -v io; do echo --$node--;ssh $node lsof +D /CAE|grep -i "deleted" ;done --nd065-- --nd066-- --nd067-- ..........

  3. 客户端上的挂载选项:

ndio06-ib:/CAE on /CAE 类型 nfs4 (rw,relatime,vers=4.1,rsize=1048576,wsize=1048576,namlen=255,soft,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=192.168.1.72,local_lock=none,addr=192.168.1.161)

  1. 观察到的情况:— 卸载后执行 xfs_repair 可以修复该问题,但几周后又会出现。遗憾的是,修复期间我没有捕获信息以查看 raid/磁盘是否存在任何物理问题。
  • 重新启动 nfsd 服务即可解决问题,df 会在尝试几次后给出正确的百分比(每次尝试都会得到较低的使用百分比),或者等待几分钟。同样,这只是一个临时修复,问题会在几天或几周后出现。
  • 除非 df 报告使用率达到 100%,否则 nfs 服务仍然有响应。nfsd 线程数设置为 8。

有人能解释一下这个问题吗?如果需要,可以提供更多信息。

谢谢。

相关内容