我希望有人能帮助我解决一个奇怪的问题。
我们正在运行带有 Server 2008 R2 和 Equallogic PS4000 SAN 的 Microsoft 故障转移群集。我们的主要配置是群集中有 2 台 Dell Poweredge T710 服务器。我们设置了 CSV 和 Quorm。每台服务器都有 10 个 Broadcom 1Gb NIC。目前,其中 4 个 NICS 位于 iSCSI 网络上,用于访问 SAN。它们使用 MPIO 和 Dell HIT 包。
我们在每个节点上运行了 5 个虚拟机,一切运行顺利。没有明显的性能问题或其他问题。从 SAN,我可以看到从每个服务器到每个卷(CSV 和 Quorm)的 4 个 iSCSI 连接。同样,它似乎表现良好。
我遇到的问题与备份有关。我尝试过几个备份程序,如 backupchain 和 Veeam。问题是它们备份虚拟机的速度都非常非常慢。例如,我有一个 500GB(固定磁盘)的 VHD 在集群上运行。备份该 VHD 需要 18 个小时以上,而且是在关闭压缩和去缓存的情况下,这应该是最快的。
我们还有一个单独的服务器,仅用于备份。它有很多定向附加存储。作为故障排除的一部分,我决定将该服务器作为节点纳入集群。它现在可以访问 CSV,并且可以从 C:\clusterstorage\volume1 读取,这是我们的 VHD 所在的位置。此备份服务器只有 2 个 NIC。1 个 NIC 连接到 iSCSI 网络,另一个位于主网络上。它里面有 Intel NICS,没有任何 MPIO 或组合。
因此,现在集群中的第三台服务器开始进行基准测试。我有一个大约 7GB 的测试 VHD,存储在 CSV 中。我测试了将该 VHD 从所有 3 台服务器复制到相应服务器中的定向附加存储。集群中的主要节点(它们容纳虚拟机)的 2 台戴尔服务器以大约 20Mbs/秒的速度读取该文件。以这样的速度进行备份太慢了。另一台只有 1 个 NIC 连接到 SAN 的服务器的读取速度约为 100Mbs/秒。
我今天花了几个小时与戴尔通电话讨论这个问题。我们进行了各种测试,但他却一头雾水。他真的不知道为什么只有 1 个 NIC 的服务器的读取速度是具有 4 个 NICS 和 MPIO 的服务器的 5 倍。
我们查看了文件复制过程中 NIC 的网络利用率。在文件复制过程中,具有 4 个 NIC 的服务器的活动略有增加,但所有 4 个 NIC 的活动仅增加了约 8-10%。在文件复制过程中,具有 1 个 NIC 的另一台服务器的活动增加到 80% 以上。
我计划在下班后做更多的测试,明天再给戴尔打电话,但我真的很困惑(戴尔的支持代表也是如此)为什么我无法更快地在这些服务器上获得对 CSV 的文件复制访问权限。
有人对此有什么意见吗?任何反馈都将不胜感激。
提前致谢。
答案1
根据你提供的信息,似乎你的备份过程正在将 CSV 放入重定向访问模式。可能是您的备份软件不支持 CSV,并尝试通过不拥有资源的服务器访问 VHD 文件。
您应该能够通过查看存储下的故障转移群集管理器中的 CSV 来验证这一点。
如果是这种情况,我会联系 Veeam,了解他们建议如何执行集群 Hyper-V 备份。
有关重定向访问的更多信息,请参见此处:http://blogs.technet.com/b/askcore/archive/2010/12/16/troubleshooting-redirected-access-on-a-cluster-shared-volume-csv.aspx
答案2
在我看来,这听起来像是 MPIO 设置配置错误。如果不在您的站点上花费数小时,就不可能准确找出问题所在,但这里有一些提示可供检查:
- Equallogic 如何配置来呈现 LUN?它是执行主动/被动还是主动/主动?它使用 ALUA 吗?如果不是 ALUA,那么您可能会遇到路径破坏,这将在大量 I/O 期间使 SAN 陷入瘫痪。
- 您是否在使用巨型帧?如果是(或者您不知道) - 检查所有设备上的 SAN、交换机和网卡,以确保 MTU 设置在所有地方都相同
每个受人尊敬的 SAN 供应商都会针对不同的使用场景提供最佳实践。您应该能够找到适用于 Windows 上具有 iSCSI 的 MPIO 的最佳实践。