各位工程师们,大家好。
我有一个包含 3 个 ESXi 主机的 ESXi5.0 集群设置。现在我需要创建一个网络硬件故障测试用例并在数据中心执行测试。
My Setup:
1) 3 DELL R820 Servers (all identical in the configuration and hardware)
2) PHYSICAL: Pair of 1GB ports for vSphere Management Network (active/standby)
VIRTUAL: 1 VMkernel Port vmk0 on standard vSwitch0
3) PHYSICAL: Pair of 10GB ports for regular network communications between guests MESH(active/active using IP Hash load balancing connected to the redundant switches)
VIRTUAL: dvSwitch0 with exposed and needed VLANs.
4) PHYSICAL: Pair of 10GB for storage NFS/VMDK (active/passive, Failover Only with "Link Status Only" network failure detection connected to different switches)
VIRTUAL: 1 VMkernel port vmk1 connected to distibuted switch dvSwitch01
5) PHYSICAL: Pair of 10GB for storage (guest initiated) (active/active, load balancing is based on Port ID with "Link Status Only" network failure detection connected to different switches)
HA and DRS enabled.
我原本计划只进行常规拉线测试,但可能遗漏了一些因素。如果您能提供任何建议和/或最佳实践来执行此类测试,我将不胜感激。
答案1
- 关闭主机电源。- 测试高可用性和准入控制。
- 关闭开关。- 测试故障转移链接。
- 独立断开数据和存储网络电缆。- 测试弹性、负载平衡和数据存储心跳/主机隔离状态。还有存储控制器故障转移。
答案2
当我们测试故障场景时,我们首先移除单根电线/光纤,然后是整个 NIC/HBA,然后是服务器,然后是交换机 - 即从小到大 - 因为如果平台无法处理小型平台,那么在大型平台上进行测试就毫无意义。
话虽如此,但我看不出您的设置有什么问题,因为无论如何您都没有解释过。
答案3
我更倾向于采用大方法 - 拔掉服务器电源,然后尝试存储,最后尝试交换机 - 或以任何其他顺序 - 如果系统可以生存下来 -> 一切顺利。但如果你有很多时间(并且有人愿意为此付费),你可以单独尝试解决每个小问题...
特斯加