Linux 最大线程数

Linux 最大线程数

我的服务器一直在 Amazon Ec2 linux 上运行。我里面有一个 mongodb 服务器。 mongodb 服务器一直在高负载下运行,不幸的是,我遇到了一个问题:/

众所周知,mongodb 为每个客户端连接创建新线程,这在之前工作得很好。不知道为什么,MongoDB 无法以非特权用户身份在主机上创建超过 975 个连接(它在 mongod 用户下运行)。但是当我以 root 用户身份运行它时,它最多可以处理 20000 个连接(mongodb 内部限制)。但是,进一步的调查表明,问题不在于 MongoDB 服务器,而在于 Linux 本身。

我找到了一个简单的程序,它检查最大连接数:

/* compile with:   gcc -lpthread -o thread-limit thread-limit.c */
/* originally from: http://www.volano.com/linuxnotes.html */

#include <stdlib.h>
#include <stdio.h>
#include <unistd.h>
#include <pthread.h>
#include <string.h>

#define MAX_THREADS 100000
#define PTHREAD_STACK_MIN 1*1024*1024*1024
int i;

void run(void) {
  sleep(60 * 60);
}

int main(int argc, char *argv[]) {
  int rc = 0;
  pthread_t thread[MAX_THREADS];
  pthread_attr_t thread_attr;

  pthread_attr_init(&thread_attr);
  pthread_attr_setstacksize(&thread_attr, PTHREAD_STACK_MIN);

  printf("Creating threads ...\n");
  for (i = 0; i < MAX_THREADS && rc == 0; i++) {
    rc = pthread_create(&(thread[i]), &thread_attr, (void *) &run, NULL);
    if (rc == 0) {
      pthread_detach(thread[i]);
      if ((i + 1) % 100 == 0)
    printf("%i threads so far ...\n", i + 1);
    }
    else
    {
      printf("Failed with return code %i creating thread %i (%s).\n",
         rc, i + 1, strerror(rc));

      // can we allocate memory?
      char *block = NULL;
      block = malloc(65545);
      if(block == NULL)
        printf("Malloc failed too :( \n");
      else
        printf("Malloc worked, hmmm\n");
    }
  }
sleep(60*60); // ctrl+c to exit; makes it easier to see mem use
  exit(0);
}

并且再次重复这种情况,作为 root 用户,我可以创建大约 32k 线程,作为非特权用户( mongod 或 ec2-user )大约 1000 。

这是 root 用户的 ulimit:

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 59470
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 60000
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 1024
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

这是 mongod 用户的 ulimit:

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 59470
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 60000
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 1024
cpu time               (seconds, -t) unlimited
max user processes              (-u) 1024
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

内核最大线程数:

bash-4.1$ cat /proc/sys/kernel/threads-max 
118940

SELinux 已禁用。不知道如何解决这个奇怪的问题......可能有人知道吗?

答案1

你的问题就是max user processes极限。

来自getrlimit(2)手册页:

RLIMIT_NPROC 可以为调用进程的真实用户 ID 创建的最大进程数(或者更准确地说,在 Linux 上为线程数)。遇到此限制时,fork(2)会失败并出现错误EAGAIN

同样适用于pthread_create(3):

EAGAIN资源不足,无法创建另一个线程,或者遇到系统对线程数施加的限制。后一种情况可能以两种方式发生:达到RLIMIT_NPROC软资源限制(通过 设置setrlimit(2)),该限制限制真实用户 ID 的进程数量;或者/proc/sys/kernel/threads-max达到了内核系统范围内的线程数限制 , 。

增加用户的限制,它应该能够创建更多线程,直到达到其他资源限制。
或者简单的资源耗尽 - 对于 1Mb 堆栈和 20k 线程,您将需要大量 RAM。
也可以看看NPTL 将最大线程数限制为 65528?:/proc/sys/vm/max_map_count在某些时候可能会成为一个问题。

侧面观点:您应该使用-pthread而不是-lpthread.看gcc - 编译时 -pthread 标志的意义

答案2

当 mongo 客户端 (java) 的连接问题被中断(似乎是由 AWS 网络中断)时,我们遇到了这个问题。当 TCP_KEEPALIVE 设置为 7200(2 小时)时,连接池中的连接会在这 2 小时窗口内建立起来,当达到 975 个连接时,mongod 就会终止。

mongo 生产清单建议保持活动的时间要短得多(5 分钟);设置也应该可以帮助您避免连接限制。

相关内容