我正在尝试识别在 Windows Server 2016 上的 Hyper-V 下运行的 Linux(Debian)VM 的问题。
问题是,在随机时间间隔内,我看到大量的带宽峰值,这导致物理服务器网络端口达到最大容量,从而导致与物理服务器的连接丢失。
我曾尝试在 Hyper-V 服务器的“带宽管理”部分中限制虚拟机的带宽,但没有效果。
我也尝试过使用 Wondershaper (https://github.com/magnific0/wondershaper),虽然它似乎限制了“一些”流量,但我仍然看到巨大的峰值,因此它无法发现导致这种情况的任何原因。
我也尝试使用 ethtool 来改变接口速度,但问题仍然存在。
在这个阶段,我不知道该如何尝试找出导致这种情况的原因以及如何防止它。
有人能建议我可以尝试其他什么方法来找出导致这种情况的原因吗?
谢谢。
更新:我在虚拟机上安装了 netatop 并发现了问题(如下),但同样,它没有显示发生了什么以及带宽被消耗在哪里(除非我遗漏了什么)。您可以看到问题,但它怎么会超过我设置的 300Mbps 的网络接口速度呢?它记录的速度是 965Mbps,怎么会这样呢?
更新 :
这是问题发生时在 tcpdump 捕获中看到的流量,因此肯定是恶意攻击,有数千个这样的条目,来自许多不同的 IP 地址,但都针对同一个 website.com 域,并且都具有几乎相同的有效负载。
0.000013 31.xxx.xxx.xxx 185.xxx.xxx.xxx DNS 1034 Standard query response 0x9764 ANY website.com RRSIG RRSIG RRSIG NSEC3PARAM website.com DNSKEY DNSKEY DNSKEY RRSIG RRSIG RRSIG RRSIG AAAA 2600:1f18:46d5:xxxx:xxxx:xxxx:91c8:a5b DNSKEY RRSIG RRSIG RRSIG RRSIG RRSIG SOA ns0.website.com TXT TXT TXT TXT TXT TXT TXT
答案1
我是否正确地假设蓝线代表入站流量(从外部下载到虚拟机),而紫线代表出站流量(从虚拟机上传到外部)?如果是这样,那么 Windows 服务质量 (QoS) 功能就是 Hyper-V 带宽管理的基础无法减少入站流量峰值:
笔记:您可以使用 QoS 来控制出站流量,但不能控制入站流量。例如,使用 Hyper-V 副本,您可以使用 QoS 来控制出站流量(来自主服务器),但不能控制入站流量(来自副本服务器)。
另请参阅TechNet 讨论,这加强了与 Hyper-V 的相关性:
我可以确认,[Hyper-V 最大带宽] 仅适用于 VM 的出站流量。但文档中没有提到这一事实。这是错误还是功能?
尝试识别消耗带宽的特定应用程序或服务。一种方法是使用在顶上,即可在 Debian 存储库中找到。但是,您需要手动安装网顶内核模块,它可以实现每个进程的网络记帐,但不包含在 Debian 软件包中。完整说明请参阅网站并总结如下:
- 下载最新netatop-xxtar.gz
- 安装软件包zlib1g-dev,构建必需品, 和Linux 标头-amd64(假设 64 位架构)
构建并安装模块和守护进程。从解压的存档的顶层目录运行以下命令:
make sudo make install
要加载模块并启动守护进程:
systemctl start netatop
要在启动后自动加载模块并启动守护进程:
systemctl enable netatop
在虚拟机上运行sudo atop -n
并等待网络峰值。您可能能够通过其较高的 BANDWI 和 NET 值发现有问题的服务,例如本例中的 sshd:
顺便说一句,我假设您的网络图专门测量虚拟机的网络适配器。如果不是——例如,如果它测量的是 Hyper-V 服务器上的物理适配器——那么实际上可能是 Windows 进程导致了峰值。解决这个问题的方法是类似的,你可以从找到 Windows 的 atop 模拟开始。
更新:
您的屏幕截图显示,此时间段内的第 3 层 IP 数据包数量(伊皮= 866802)远远超过了 ICMP 数据包的总数(信息处理协会= 199)加上第 4 层 TCP/UDP 数据包(传输控制协议=4316,UDP 协议=47)。再加上没有任何正在运行的进程参与,这表明虚拟机正受到来自外部来源的畸形(恶意?)流量的侵扰。
你需要申请davidgo 建议使用 tcpdump您可以使用它的一种方法是运行 bash 循环来等待每秒传入的数据包超过阈值:
#!/bin/bash
threshold=10000 # packets/sec; note that atop(1) reports packets per 10sec by default
waiting=1
while [[ $waiting -eq 1 ]]
do
atopsar -w 10 1 | tail -n1 | awk "\$2 < $threshold {exit 1}"
waiting=$?
done
tcpdump -ieth0 -w out.pcap
问题发生后,你可以复制结果输出数据包将文件复制到另一台计算机,然后使用 Wireshark 打开。然后,应用统计信息 -> 端点查看超额流量来自何处。如果本地网络中的设备(甚至可能是 Hyper-V 服务器)正在生成流量,则可以重新配置它以停止。如果 Internet 上的单个 IP 正在生成流量,则可以使用防火墙找到将其列入黑名单的方法。如果是多个 IP,则可能需要阅读有关分布式拒绝服务攻击 (DDoS) 以及如何使用防火墙和/或 ISP 阻止流量的文章。网上有很多关于 DDoS 的文章,例如这个来自亚马逊。