我在 GlusterFS 设置中遇到了一个严重问题,导致 NFS 共享冻结,从而导致严重的生产停机。日志显示重复出现的错误消息:
21/11/2023 16:03:34 : epoch 655c845f : swarm-fs01 : ganesha.nfsd-685[svc_391] remove_fd_lru :FSAL :CRIT :fsal_fd_global_counter is negative: -1
此错误似乎影响了 FSAL 中的文件描述符管理,导致全局计数器为负数,随后 NFS 共享被冻结。尽管多次发生,我仍无法找出根本原因。
系统配置最近没有发生重大变化,并且该问题在各种负载条件下仍然存在。
如果您能提供任何有关此错误潜在原因的见解,以及任何建议的故障排除步骤或 GlusterFS 中的配置调整以纠正此问题,我将不胜感激。此外,有关如何防止此问题导致 NFS 共享冻结和影响生产的建议也将非常有帮助。谢谢。