在繁忙的接口上进行 tcpdump 时会丢弃大量数据包

在繁忙的接口上进行 tcpdump 时会丢弃大量数据包

我的挑战

我需要对大量数据进行 tcpdump - 实际上是从处于混杂模式的 2 个接口进行的,这些接口能够看到大量的流量。

把它们加起来

  • 记录来自 2 个接口的混杂模式下的所有流量
  • 这些接口是不是已分配 IP 地址
  • pcap 文件必须以~1G 为单位轮换
  • 当存储了 10 TB 的文件时,开始截断最旧的文件

我目前的工作

现在我像这样使用 tcpdump:

ifconfig ethX promisc
ifconfig ethX promisc
tcpdump -n -C 1000 -z /data/compress.sh -i any -w /data/livedump/capture.pcap $FILTER

包含$FILTERsrc/dst 过滤器,以便我可以使用-i any。这样做的原因是,我有两个接口,我想在单个线程而不是两个线程中运行转储。

compress.sh负责将 tar 分配给另一个 CPU 核心,压缩数据,赋予其合理的文件名并将其移动到存档位置。

我无法指定两个接口,因此我选择使用过滤器并从any接口转储。

现在,我没有做任何家务,但我计划监控磁盘,当我剩下 100G 时,我将开始擦除最旧的文件 - 这应该没问题。

现在我的问题

我看到有数据包被丢弃。这是从运行了几个小时的转储中收集的,收集了大约 250 GB 的 pcap 文件:

430083369 packets captured
430115470 packets received by filter
32057 packets dropped by kernel  <-- This is my concern

我怎样才能避免丢失这么多的数据包?

这些事情我已经尝试过或看过

/proc/sys/net/core/rmem_max改变和的值/proc/sys/net/core/rmem_default确实有帮助——实际上它只处理了大约一半的丢弃数据包。

我也看过吞咽- gulp 的问题在于,它不支持在一个进程中同时使用多个接口,如果接口没有 IP 地址,它就会发怒。不幸的是,这对我来说是个大问题。

下一个问题是,当流量通过管道时,我无法启动自动轮换。获取一个巨大的 10 TB 文件效率不高,而且我没有一台具有 10TB 以上 RAM 的机器可以运行 wireshark,所以这是不可能的。

你有什么建议吗?也许还有更好的方法来彻底清除我的流量。

答案1

tcpdump 将传入数据存储在环形缓冲区中。如果缓冲区在 tcpdump 处理其内容之前溢出,则您将丢失数据包。

默认环形缓冲区大小可能是 2048(2MiB)。

要增加缓冲区大小,请添加以下-B选项:

tcpdump -B 4096 ...

您还应该尝试使用更快的磁盘存储。

答案2

我最终找到了一个可以接受的解决方案。丢失的数据包从 0.0047% 减少到了 0.00013% - 乍一看似乎不多,但当我们谈论数百万个数据包时,这个数字相当大。

解决方案包括几个方面。其中之一是按照 Michael Hampton 的建议更改环形缓冲区大小。

此外,我创建了一个 ramfs 并对其进行了实时转储,重写了我的压缩脚本来负责将转储从 ramfs 移动到磁盘。这只会减少很少的数量,但足以引起注意 - 即使所有磁盘测试和基准测试都表明,磁盘不应该是瓶颈。我想访问时间在这里非常重要。

禁用超线程的作用也超出了您的想象。

相关内容