我遇到无盘客户端在启动后 24 小时内失去与其 nfsroot 服务器的连接的情况。最初我认为这与硬件有关,因为我同时将 16 个刀片从 Centos6 升级到 Centos7(使用 nfsroot 无盘/pxe 启动),并且在启动正常并运行 12 小时以上后,它们都同时失去连接。当他们这样做时,他们都会在控制台上打印“任务阻塞超过 120 秒”。我将其中一台刀片服务器设置为从本地磁盘启动,并且在重现问题时,15 个无盘刀片服务器按照描述发生故障,而带有启动磁盘的刀片服务器则像以前一样继续运行。 nfs 服务器继续为其他客户端提供良好服务。
我得出的结论是,我的 nfsroot 连接在这些无盘刀片(M1000e 机箱中的 Dell M620)上丢失了。没有什么有趣的事情被记录在消息文件的两端。我不认为这是硬件问题,因为所有改变都是从 Centos6 升级到 7,尽管我认为可能存在兼容性问题。硬件确实声称支持Centos7。
任何人都可以建议调试为什么 nfsroot 连接丢失的好方法吗?内核 = 3.10.0-1160.59.1.el7.x86_64
答案1
已确认的解决方案/解决方法:将以下行添加到 dhcpd.conf 中可防止断开与 nfs 服务器的连接:
default-lease-time infinite;
max-lease-time infinite;
正如错误报告中所建议的https://bugzilla.redhat.com/show_bug.cgi?id=1132396