我们有一个带有 8 个 IQ 12000x 节点的 Isilon 集群,它通过多个 NFS 共享为少数 Linux 和 Solaris 客户端导出存储。
有一个 Linux 系统安装了其中一个 NFS 文件系统。Linux 系统对该文件系统的 I/O 负载适中。每隔 3-4 周(没有任何可辨别的时间表,有时比这更频繁/更少),我们会注意到此 NFS 安装上的所有活动都会停止(进程挂起,好像网络停止工作,因此进程处于不间断的睡眠状态)- 30 分钟后,共享恢复,一切继续正常工作。受影响机器的内核日志如下:
Dec 3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying
Dec 3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK
相关/etc/fstab
行:
nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0
我检查了是否有任何计划进程(例如 cron 作业)、Isilon 相关功能(例如快照)等可能导致这些挂断,但我似乎找不到任何东西。我也不知道任何与网络相关的问题或维护会导致这种情况。根据内核日志,所有锁定几乎都持续 30 分钟。
也许有人有一些我可以尝试的建议?(我考虑使用软挂载来避免与访问文件系统挂起的进程相关的问题;但是我担心这可能会导致损坏,而且无论如何它也无法真正解决根本问题)。
答案1
检查整个布线拓扑中的 MTU 值是否正确。如果您的接入层客户端设置为 9000,并且要通过交换机。请确保交换机可以处理更大的 MTU 大小。