服务器网络连接任意丢失

服务器网络连接任意丢失

我有大约 300 个使用 PXE 启动过程和 dhcp ip 的服务器节点。这 300 个节点与充当 PXE 服务器和 dhcp 服务器的“中央”服务器进行通信。但是这些节点有时可能会失去网络连接(在我的情况下,当节点失去网络连接时,使用 ifconfig 仍可以看到网卡的 mac 地址,但通常 ip 地址不会显示,并且 ping 中央服务器失败)。失去网络连接可能发生在看似任意的时间点(可能在启动时并导致服务器无法立即启动 PXE 启动,或者在尝试 scp 某些文件或执行查询数据库的某些脚本时发生);有时连接可能会(但可能并非总是)在一段时间后自行恢复。此外,在某些但并非所有情况下,这些节点的 BMC ip 也可能会与网络 ip 不可达同时变得不可达。

其他一些因素包括

  1. 300 个节点和 dhcp/pxe 服务器使用 Redhat 8.3
  2. 300 个节点几乎全部禁用 BMC MAC 1(专用),启用 BMC MAC 8(共享),但少数(不到 10 台)不同型号的服务器启用了 MAC 1
  3. dhcp 服务器租约时间约为 3 天,可能的 ip 池应该远远超过 300
  4. 我以前有另一组具有相同型号的节点(但数量较少或位于不同的设施),并且没有出现这样的问题
  5. 电缆、交换机、DHCP 服务器与过去几年保持不变;只是网络中的客户端节点变得不同(不确定 DHCP 服务器上是否发生了某些更改,从而会产生这样的影响)

关于如何排除故障或分析问题有什么建议吗?如果它可能与 dhcp/pxe 服务器上的某些设置有关,那么这些设置可能是什么以及如何检查和修改它们?

相关内容