我已经处理这个问题大约半年了(有足够的时间)但还没有设法解决它,所以我最终辞职来到这里向其他人寻求帮助,而不仅仅是谷歌(我们对 vmware 的支持大约 3 年前就用完了,我们的高管选择不要求 vmware 延长支持期限)。
问题
我没有处理过虚拟化或虚拟机的性能问题,一切都运行良好。当我需要为虚拟机设置新的备份软件时,我真的被坑了。主机、存储和备份服务器都配备了 10GigEth NIC,并连接到同一个 10Gig 交换机。当我想将 VMDK 从主机及其 iSCSI 连接存储复制到备份服务器时,速度稳定在 150Mbit/s。我每晚要备份的数据量约为 2-5 TB,以这样的速度不可能完成。目标是将复制速度提高到至少 100MB/s(大约 14 小时内 5TB)。
拓扑
- 网络 X 192.168.xxx.0/24
- 网络 Y 10.0.yyy.0/24
- 企业网络(我们不管理它,我们只使用它)其中包括用于物理设备和虚拟机的各种 VLAN。
- 网络 VLAN A
- 网络 VLAN B
集群拓扑
10 Gig Dell 交换机实际上是集群的核心,因为所有东西都通过 Cat6 电缆连接到它。SW2 交换机通过菊花链连接到它,并充当从 ESXi 主机到 X 网络的冗余连接的连接点。这些交换机上没有配置除 1(默认)之外的其他 VLAN。主机和服务器都连接到 VLAN A(或 B),以便从我们的办公室访问,并可以访问互联网以及公司网络的其余部分。集群的数据中心是那些 Dell(SFP)和 HP(铜)存储,它们都通过 iSCSI 连接到所有五台主机。所有 ESXi 主机和服务器都有一个铜 Cat5 链路连接到 SW3 进入网络 Y,所有 BMC 和其他管理端口也都连接到该网络。其中一台备份服务器已启用路由,以通过 VLAN A 网络授予 X 网络上的互联网访问权限。网络 X 和 VLAN A 上启用了 vMotion。网络 X 上设备的所有 10Gig NIC 都启用了巨型帧,并报告 10Gb 速度全双工
测试
我测试了不少备份软件,由于测试设备只有 100Base NIC,因此我当时没有发现网络性能存在问题,但当我们购买该软件时,我发现速度不会超过 150Mbit/s,我意识到我需要做一些调整。我尝试了以下方法。每次测试的结果速度均为 150Mbit/s除非另有规定。
- 这是理想的使用示例。备份服务器通过网络 X 连接到主机并将所有备份(以快照形式)下载到本地存储和/或 NAS 存储。
- 我从主机的一个 10Gig 端口创建了到备份服务器的 10Gig 端口的直接链接,并尝试使用 SCP、WINSCP、SSH 和备份软件从戴尔存储下载 VM 快照。
- 我在一台备份服务器上创建了一个 NFS 存储,并将一个测试 VM 迁移到它(~500MB/s,20GB,稳定),然后我再次尝试了测试 2 中的方法。
- 我断开了主机 ABC(网络 VLAN A)与集群的连接,并将其重新连接为 XYZ(网络 X),删除了它与网络 VLAN A 的连接以及与 X 的 1Gig 连接,然后再次尝试测试 3。迁移(~500MB/s,20GB,稳定)。
- 在尝试测试 1、3 和 4 时,我摆弄了虚拟交换机设置和带宽策略。
- 我尝试同时运行 20 个备份作业,每个作业的运行速度为 150Mbit/s。然后我开始启动更多作业,所有作业的速度开始下降,大约有 30-32 个同时运行的作业,因此至少有 550MB/s 的吞吐量可用。
基础设施
- 五台相同的 Dell PowerEdge R610(双 Xeon X5660、200+ GB RAM、4x GLAN(Broadcom NetXtreme II BCM5709)、1x 双 10GLAN(Intel 82599)、无内部存储)
- 三个 Dell PowerVault 机柜(每个 10 TB,每个 10k SAS HDD 600GB)
- 一台 HP MSA 2040(10 TB,三个 SSD SAS 300GB 磁盘作为缓存,其余为 10k SAS HDD)
- SW1 戴尔 PowerConnect 8024
- SW2 思科 2960G
- SW3 思科 2950
- 备份服务器Dell PowerEdge R530
- Vsphere 服务器 Sunfire(有些旧)
我真的不知道问题出在哪里,但我认为问题出在 ESXi 上。不同主机上的虚拟机之间可以毫无问题地达到 500MB/s,但主机本身却不能。
我将非常感谢对此问题的每个回复,并会澄清每一个不清楚的细节。
更新 1(最终版)
我们购买了 Veeam 许可证,配置了增量备份,并对备份进行了计时,使它们不会重叠太多。通过该设置,我们几乎消除了问题,但每个连接的缓慢速度几乎保持不变。瓶颈被确定为源,我们可以自信地从头到尾跟踪数据流。我们深入研究了与流量相关的每个设备或虚拟机中的每个网络设置,但一无所获。我们唯一可以肯定地说的是,问题出在 esxi5.5 主机及其 iscsi 连接的数据存储中。
这个问题将一直是个谜,因为我们将退出这个环境,并将对其进行重大的重新利用。因此,这个问题可能没有答案。
答案1
这可能不是您所期望的建议,但它可以解决您的问题^^
解决办法是每周执行完整备份,不是每天。
这是人们开始备份(并验证备份 :D)时的第一个现实世界教训。大型每日备份根本无法在一天内完成。长话短说,每天备份 TB 是不切实际的,因为主机、网络和存储根本跟不上传输速度。
标准做法是最多备份每日差异和每周完整。VmWare 有内置方法来处理增量快照,具体取决于您购买的版本。在 ESXi 中查看您可以配置的内容。
VmWare 也将更加智能,不会通过网络重复复制相同的内容,我敢打赌,巨大的 vmdk 几乎每天都不会改变。大型传输的最低要求是使用/ rsync
,rsync 只会传输大型文件的差异。sftp
scp
答案2
我们使用 veeam 备份。它向我们展示了我们的备份基础设施(如源、网络、目标)中瓶颈的位置和百分比。源是数据所在的地方,网络是清晰的,目标是我们存储备份的地方。我遇到了同样的问题,发现它在我的存储速度中,之后瓶颈变为源,我添加了一些备份代理,之后通过更改 MTU 解决了网络问题。希望它能帮到你