我们的网络出现了一个奇怪的问题,根据 networkengineering.stackexchange 的说法,那里是离题的,尽管在我看来这是一个网络问题。
当我们想要将 SQL 数据库还原到测试数据库时,我们第一次看到了它。还原失败,在 Windows 日志中我们看到了 iSCSI 错误,已安装的 iSCSI 磁盘似乎经常丢失连接(使用 veeam 还原备份 - 这会将备份文件安装为 iSCSI 卷(目标是物理备份服务器,启动器是虚拟 SQL 服务器))。
我们做了一些测试,发现这不仅仅是一个 iSCSI 问题,在物理服务器和虚拟服务器之间复制文件时也会发生这种情况。我们的监控显示复制过程中出现大量错误,奇怪的是我们在交换机上没有看到错误。
我们在虚拟服务器的交换机端口(交换机是 Netgear M5300)上看到的是,当我们复制大文件时,“接收的数据包 > 1518 个八位字节”和“发送的数据包 > 1518 个八位字节”会急剧增加。但是大于 1518 的“接收和发送的数据包”为 0。这只发生在 ESX 的端口上,在任何测试中都不会发生在其他服务器的端口上。
所有端口(交换机、vSwitch、端口组、服务器接口)的 MTU 均设置为默认值(1518/1500)。我们重新启动了备份服务器和包含所有虚拟机的 esx,禁用并重新启用了交换机端口。发送服务器上的 Wireshark 显示大数据包(64kb),但根据交换机统计数据,该端口仅接收正常的 1518 帧。
这似乎只发生在这个测试 esx 上,我们在其上拥有所有的虚拟机,即使我们将文件上传到 esx 数据存储。
我不知道该去哪里搜索。我们唯一没有重启的是交换机本身,因为这是网络的核心组件,我们无法在生产期间重启(生产是 24/7 全天候进行的)。我们会在周末尝试,但如果有人能告诉我在哪里可以查看,我将不胜感激。
编辑 2:进行了更多测试:错误仅在具有多个 VLAN 的上行链路端口上可见。如果我仅使用单个未标记的 VLAN,则任何地方都没有错误,也没有超过 1518 的数据包。
如果我现在想想,带有 VLAN 标记的数据包的大小应该是 1522。但有些交换机不在乎这个,有些则在乎 - MTU 在所有地方都是默认的。我不想停止在 vmware 中使用带标记的 VLAN... 有什么想法吗?
答案1
显然,“Packets > 1518”的信息没有此链接指向 Netgear 论坛VLAN 标签的 4 个字节会自动添加到 MTU 设置中,因此无需将其更改为 1522 或其他值。
如果他们在计算大于 1518 的数据包时不计算标记数据包的话会更好......
这意味着我们的备份恢复问题有另一个来源......搜索继续......