Isilon 群集上出现间歇性 NFS 锁定

Isilon 群集上出现间歇性 NFS 锁定

我们有一个带有 8 个 IQ 12000x 节点的 Isilon 集群,它通过多个 NFS 共享为少数 Linux 和 Solaris 客户端导出存储。

有一个 Linux 系统安装了其中一个 NFS 文件系统。Linux 系统对该文件系统的 I/O 负载适中。每隔 3-4 周(没有任何可辨别的时间表,有时比这更频繁/更少),我们会注意到此 NFS 安装上的所有活动都会停止(进程挂起,好像网络停止工作,因此进程处于不间断的睡眠状态)- 30 分钟后,共享恢复,一切继续正常工作。受影响机器的内核日志如下:

Dec  3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying
Dec  3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK

相关/etc/fstab行:

nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0

我检查了是否有任何计划进程(例如 cron 作业)、Isilon 相关功能(例如快照)等可能导致这些挂断,但我似乎找不到任何东西。我也不知道任何与网络相关的问题或维护会导致这种情况。根据内核日志,所有锁定几乎都持续 30 分钟。

也许有人有一些我可以尝试的建议?(我考虑使用软挂载来避免与访问文件系统挂起的进程相关的问题;但是我担心这可能会导致损坏,而且无论如何它也无法真正解决根本问题)。

答案1

检查整个布线拓扑中的 MTU 值是否正确。如果您的接入层客户端设置为 9000,并且要通过交换机。请确保交换机可以处理更大的 MTU 大小。

相关内容