我的服务器一直在 Amazon Ec2 linux 上运行。我里面有一个 mongodb 服务器。 mongodb 服务器一直在高负载下运行,不幸的是,我遇到了一个问题:/
众所周知,mongodb 为每个客户端连接创建新线程,这在之前工作得很好。不知道为什么,MongoDB 无法以非特权用户身份在主机上创建超过 975 个连接(它在 mongod 用户下运行)。但是当我以 root 用户身份运行它时,它最多可以处理 20000 个连接(mongodb 内部限制)。但是,进一步的调查表明,问题不在于 MongoDB 服务器,而在于 Linux 本身。
我找到了一个简单的程序,它检查最大连接数:
/* compile with: gcc -lpthread -o thread-limit thread-limit.c */
/* originally from: http://www.volano.com/linuxnotes.html */
#include <stdlib.h>
#include <stdio.h>
#include <unistd.h>
#include <pthread.h>
#include <string.h>
#define MAX_THREADS 100000
#define PTHREAD_STACK_MIN 1*1024*1024*1024
int i;
void run(void) {
sleep(60 * 60);
}
int main(int argc, char *argv[]) {
int rc = 0;
pthread_t thread[MAX_THREADS];
pthread_attr_t thread_attr;
pthread_attr_init(&thread_attr);
pthread_attr_setstacksize(&thread_attr, PTHREAD_STACK_MIN);
printf("Creating threads ...\n");
for (i = 0; i < MAX_THREADS && rc == 0; i++) {
rc = pthread_create(&(thread[i]), &thread_attr, (void *) &run, NULL);
if (rc == 0) {
pthread_detach(thread[i]);
if ((i + 1) % 100 == 0)
printf("%i threads so far ...\n", i + 1);
}
else
{
printf("Failed with return code %i creating thread %i (%s).\n",
rc, i + 1, strerror(rc));
// can we allocate memory?
char *block = NULL;
block = malloc(65545);
if(block == NULL)
printf("Malloc failed too :( \n");
else
printf("Malloc worked, hmmm\n");
}
}
sleep(60*60); // ctrl+c to exit; makes it easier to see mem use
exit(0);
}
并且再次重复这种情况,作为 root 用户,我可以创建大约 32k 线程,作为非特权用户( mongod 或 ec2-user )大约 1000 。
这是 root 用户的 ulimit:
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 59470
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 60000
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 1024
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
这是 mongod 用户的 ulimit:
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 59470
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 60000
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 1024
cpu time (seconds, -t) unlimited
max user processes (-u) 1024
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
内核最大线程数:
bash-4.1$ cat /proc/sys/kernel/threads-max
118940
SELinux 已禁用。不知道如何解决这个奇怪的问题......可能有人知道吗?
答案1
你的问题就是max user processes
极限。
来自getrlimit(2)
手册页:
RLIMIT_NPROC
可以为调用进程的真实用户 ID 创建的最大进程数(或者更准确地说,在 Linux 上为线程数)。遇到此限制时,fork(2)
会失败并出现错误EAGAIN
。
同样适用于pthread_create(3)
:
EAGAIN
资源不足,无法创建另一个线程,或者遇到系统对线程数施加的限制。后一种情况可能以两种方式发生:达到RLIMIT_NPROC
软资源限制(通过 设置setrlimit(2)
),该限制限制真实用户 ID 的进程数量;或者/proc/sys/kernel/threads-max
达到了内核系统范围内的线程数限制 , 。
增加用户的限制,它应该能够创建更多线程,直到达到其他资源限制。
或者简单的资源耗尽 - 对于 1Mb 堆栈和 20k 线程,您将需要大量 RAM。
也可以看看NPTL 将最大线程数限制为 65528?:/proc/sys/vm/max_map_count
在某些时候可能会成为一个问题。
侧面观点:您应该使用-pthread
而不是-lpthread
.看gcc - 编译时 -pthread 标志的意义。
答案2
当 mongo 客户端 (java) 的连接问题被中断(似乎是由 AWS 网络中断)时,我们遇到了这个问题。当 TCP_KEEPALIVE 设置为 7200(2 小时)时,连接池中的连接会在这 2 小时窗口内建立起来,当达到 975 个连接时,mongod 就会终止。
mongo 生产清单建议保持活动的时间要短得多(5 分钟);设置也应该可以帮助您避免连接限制。