10GbE be2net 低包性能

Question

我在 Red Hat Enterprise Linux 机器上遇到了类似的挑战。我读了同一篇论文，并得出结论，我真正的问题是默认使用所有可能的 IRQ 让每个 CPU 参与网络数据包工作。我将 IRQ 活动集中到可用核心的子集，然后相应地引导工作。这是 rc.local 文件：

# Reserve CPU0 as the default default IRQ handler
for IRQ in `grep eth0 /proc/interrupts | cut -d ':' -f 1`; do echo 2 > /proc/irq/$IRQ/smp_affinity; done
for IRQ in `grep eth1 /proc/interrupts | cut -d ':' -f 1`; do echo 2 > /proc/irq/$IRQ/smp_affinity; done
for IRQ in `grep eth2 /proc/interrupts | cut -d ':' -f 1`; do echo 2 > /proc/irq/$IRQ/smp_affinity; done
for IRQ in `grep eth4 /proc/interrupts | cut -d ':' -f 1`; do echo $(( (($IRQ & 1) + 1) << 2 )) > /proc/irq/$IRQ/smp_affinity; done

这是 cgrules.conf 文件，它定义/区分我的 apache web 服务器和 10gbe，以便可以按预期实现严重的网络吞吐量：

apache      cpuset,cpu  apache/

下面是 cgconfig.conf 文件，它实际上将服务器与其余 CPU 活动分开：

mount {
    cpuset  = /cgroup/cpuset;
    cpu = /cgroup/cpu;
    cpuacct = /cgroup/cpuacct;
    memory  = /cgroup/memory;
    devices = /cgroup/devices;
    freezer = /cgroup/freezer;
    net_cls = /cgroup/net_cls;
    blkio   = /cgroup/blkio;
}

group apache {
    cpuset {
        cpuset.memory_spread_slab="0";
        cpuset.memory_spread_page="0";
        cpuset.memory_migrate="0";
        cpuset.sched_relax_domain_level="-1";
        cpuset.sched_load_balance="1";
        cpuset.mem_hardwall="0";
        cpuset.mem_exclusive="0";
        cpuset.cpu_exclusive="0";
        cpuset.mems="1";
        cpuset.cpus="4-7,12-15";
    }
}

group apache {
    cpu {
        cpu.rt_period_us="1000000";
        cpu.rt_runtime_us="0";
        cpu.cfs_period_us="100000";
        cpu.cfs_quota_us="-1";
        cpu.shares="1024";
    }
}

在默认配置下（没有 IRQ 和 cgroups hack），我测量到的网络吞吐量约为 5Gb/s。在 IRQ 集中且随机网络 IO 移开后，我使用 netperf 测量到接近线速（9.5Gb/s）的性能。

nb 巨型数据包没有任何区别，无论是之前还是之后的数字。

Answer 1