ESXi 5x 集群硬件故障场景

ESXi 5x 集群硬件故障场景

各位工程师们,大家好。

我有一个包含 3 个 ESXi 主机的 ESXi5.0 集群设置。现在我需要创建一个网络硬件故障测试用例并在数据中心执行测试。

My Setup:

    1) 3 DELL R820 Servers (all identical in the configuration and hardware)

    2) PHYSICAL: Pair of 1GB ports for vSphere Management Network (active/standby)
       VIRTUAL: 1 VMkernel Port vmk0 on standard vSwitch0

    3) PHYSICAL: Pair of 10GB ports for regular network communications between guests MESH(active/active using IP Hash load balancing connected to the redundant switches) 
       VIRTUAL: dvSwitch0 with exposed and needed VLANs.
    4) PHYSICAL: Pair of 10GB for storage NFS/VMDK (active/passive, Failover Only with "Link Status Only" network failure detection connected to different switches)
       VIRTUAL: 1 VMkernel port vmk1 connected to distibuted switch dvSwitch01
    5) PHYSICAL: Pair of 10GB for storage (guest initiated) (active/active, load balancing is based on Port ID with "Link Status Only" network failure detection connected to different switches)

HA and DRS enabled.

我原本计划只进行常规拉线测试,但可能遗漏了一些因素。如果您能提供任何建议和/或最佳实践来执行此类测试,我将不胜感激。

答案1

- 关闭主机电源。- 测试高可用性和准入控制。

- 关闭开关。- 测试故障转移链接。

- 独立断开数据和存储网络电缆。- 测试弹性、负载平衡和数据存储心跳/主机隔离状态。还有存储控制器故障转移。

答案2

当我们测试故障场景时,我们首先移除单根电线/光纤,然后是整个 NIC/HBA,然后是服务器,然后是交换机 - 即从小到大 - 因为如果平台无法处理小型平台,那么在大型平台上进行测试就毫无意义。

话虽如此,但我看不出您的设置有什么问题,因为无论如何您都没有解释过。

答案3

我更倾向于采用大方法 - 拔掉服务器电源,然后尝试存储,最后尝试交换机 - 或以任何其他顺序 - 如果系统可以生存下来 -> 一切顺利。但如果你有很多时间(并且有人愿意为此付费),你可以单独尝试解决每个小问题...

特斯加

相关内容