提前为冗长的帖子道歉……
尝试解决全新 vSphere 部署(仍在测试中)中的一些 iSCSI 缓慢问题。
布局如下:
3 个 VSphere 主机,每个主机都配有 2 个 10GB NIC,插入一对 Nexus 5020,它们之间有 10gig 背对背。NIC 以主动/主动冗余方式进行端口通道化(对于熟悉 N1KV 的用户,使用 vPC-mac 固定)两个 NIC 都承载服务控制台、vmotion、iSCSI 和来宾流量。iSCSI 位于单个子网/单个 VLAN 上,不通过我们的 IP 网络路由(严格来说是第 2 层)
如果这是 1gig 部署,我们可能会将 iSCSI 流量拆分到单独的 NIC 上,但当您开始在 10gigabit 基础设施中向服务器投放 4 个以上的 NIC 时,价格/端口会变得相当荒谬,而且我并不真的相信这是必要的。不过,欢迎就此进行对话/技术事实。
此时,即使单个 VM 客户机启动到 iSCSI 存储(同一 Nexus 5020 10gig 交换机上的 EMC CX4)也会很慢,并且从 iSCSI 恢复 VM 所花的时间大约是我们预期的两倍。我们的服务器人员提到,如果我们将 iSCSI 分离到其自己的 NIC 上,性能似乎会好得多。从网络角度来看,我已经尝试了我能想到的所有变量(端口配置错误、MTU 问题、拥塞等),但结果却一无所获。除了当时正在执行的非常具体的测试之外,这些主机上确实没有其他流量。需要注意的重要一点是,客户机流量运行良好……似乎存储是唯一受到任何小故障影响的东西。
结论是,我们并没有“过度利用”网络基础设施,因为我们几乎什么都没做,我只是在寻找一些有用的提示/想法来解决这个问题......最好不要投入额外的 10gig NIC,这些 NIC 的利用率将达到 10% 左右,而我们的其他 NIC 还剩下 70% 以上。
答案1
假设您的 CX4 中有一个或多个双端口 10Gbps 适配器?如果是,您是否尝试过在其中一个端口和单个服务器之间建立点对点链接以进行基线性能测试?如果没有,那么我会考虑将其串起来,切断 nexus,然后看看您如何操作 - 结果应该很有趣。
哦,另外,你的设计我觉得不错;)