我得到了一个服务器无处不在的服务器大约一周前,我安装了一个简单的 Apache 服务器,它只提供图像。该服务器的负载很小,因为它只是 Amazon CloudFront 后面的一个原始服务器,但昨天它突然对 SSH 失去响应,以至于我不得不关闭它然后再打开 SSH。我正在尝试找出导致这种情况的原因,并希望社区提供任何意见。
以下是一些发现。
我注意到此时接收到的多播数据包数量出现了激增,以下是日志:
sar -n DEV -f sa29 | less
08:30:01 PM eth1 66.96 63.34 19.54 62.51 0.00 0.00 0.05
08:40:01 PM lo 0.07 0.07 0.01 0.01 0.00 0.00 0.00
08:40:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
08:40:01 PM eth1 65.05 70.51 5.63 84.70 0.00 0.00 0.02
08:50:01 PM lo 0.04 0.04 0.00 0.00 0.00 0.00 0.00
08:50:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
08:50:01 PM eth1 57.84 59.48 6.71 67.85 0.00 0.00 0.04
09:00:01 PM lo 0.03 0.03 0.00 0.00 0.00 0.00 0.00
09:00:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:00:01 PM eth1 48.55 47.35 4.30 53.78 0.00 0.00 0.03
09:10:01 PM lo 0.01 0.01 0.00 0.00 0.00 0.00 0.00
09:10:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:10:01 PM eth1 53.16 51.88 5.61 58.48 0.00 0.00 0.02
09:20:01 PM lo 0.04 0.04 0.00 0.00 0.00 0.00 0.00
09:20:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:20:01 PM eth1 61.80 63.91 7.75 73.46 0.00 0.00 0.05
09:30:01 PM lo 0.03 0.03 0.00 0.00 0.00 0.00 0.00
09:30:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:30:01 PM eth1 54.74 55.70 5.79 63.43 0.00 0.00 0.02
09:40:01 PM lo 0.01 0.01 0.00 0.00 0.00 0.00 0.00
09:40:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:40:01 PM eth1 27.83 28.57 3.17 32.59 0.00 0.00 1058754721.47
09:50:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:50:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
09:50:01 PM eth1 0.00 0.00 0.00 0.00 0.00 0.00 2142789576.69
10:00:01 PM lo 0.05 0.05 0.01 0.01 0.00 0.00 0.00
10:00:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:00:01 PM eth1 0.00 0.00 0.00 0.00 0.00 0.00 2152346090.50
10:10:01 PM lo 0.01 0.01 0.00 0.00 0.00 0.00 0.00
10:10:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:10:01 PM eth1 0.00 0.00 0.00 0.00 0.00 0.00 2142038999.87
10:20:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:20:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:20:01 PM eth1 0.00 0.00 0.00 0.00 0.00 0.00 2153457524.69
10:30:01 PM lo 0.01 0.01 0.00 0.00 0.00 0.00 0.00
10:30:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:30:01 PM eth1 0.00 0.00 0.00 0.00 0.00 0.00 2142646569.12
Average: lo 0.03 0.03 0.00 0.00 0.00 0.00 0.00
Average: eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: eth1 91.61 90.43 21.05 59.33 0.00 0.00 87333330.59
10:42:20 PM LINUX RESTART
10:50:01 PM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
11:00:01 PM lo 0.03 0.03 0.00 0.00 0.00 0.00 0.00
11:00:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
11:00:01 PM eth1 31.57 28.14 2.54 30.25 0.00 0.00 0.05
11:10:01 PM lo 0.11 0.11 0.01 0.01 0.00 0.00 0.00
11:10:01 PM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
服务器使用的是 CentOS 6。我不太确定还应该检查什么。
答案1
我只是想为此做出贡献,因为我遇到了完全相同的问题,使用与 OP 相同的托管公司。我们的服务器会长时间(有时是几个小时)无响应,并且总是伴随着大量传入的多播数据包。
我发现我们的服务器不在私有 VLAN 上,并且暴露在“公共”多播和广播流量中,特别是可能指向我们 IP 地址的前所有者的流量(网络主机回收这些流量)。我们的 IP 地址曾经被一个在线游戏社区使用,所以请自行猜测。
让 Ubiquity 的人将我们置于私有 VLAN 中立即解决了这个问题,总共花费 80 美元(一次性费用)。当我购买专用服务器时,他们本应警告我这个漏洞,但他们没有。
我对 Ubiquity Hosting 只有赞美之词,因此我想确保记录清楚,这归结为我的 IP 容易受到 UDP 流量的攻击,并且我的机器无法在如此短的时间内处理十亿多个错误的 UDP 数据包。
希望这对某人有帮助!