消除 OOM 和连续的 mysqld 崩溃

消除 OOM 和连续的 mysqld 崩溃

我正在尝试解决似乎影响mysqld服务的内存不足问题。服务完全随机地死机 - 有时一周一次,有时每两天一次。

我的 VPS 有 6GB RAM,没有交换文件(我的提供商不允许/支持交换)。我的应用程序基于PHPSymfony框架)并在上运行Apache 2.2

今天晚上,我发现 RAM 使用量激增。遗憾的是,我无法捕获确切的输出free -m,但我记得-/+ buffers/cachefree约为 1G。RAM 使用量从 4.8G 上升到 5.2G。

在维护期间,我关闭了httpdmysqldmongod,之后我得到了以下free -m输出:

[root@XXXYYYZZZ ~]# free -m
             total       used       free     shared    buffers     cached
Mem:          6144       4916       1227          0          0       1207
-/+ buffers/cache:       3709       2434
Swap:            0          0          0

我的问题是那些已使用的内存是怎么回事3709M?该top命令没有显示太多信息:

top - 19:54:58 up 3 days,  6:35,  2 users,  load average: 0.00, 0.01, 0.05
Tasks:  21 total,   1 running,  20 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   6291456k total,  5034692k used,  1256764k free,        0k buffers
Swap:        0k total,        0k used,        0k free,  1236060k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
    1 root      20   0 19236 1180  932 S  0.0  0.0   0:00.02 init
    2 root      20   0     0    0    0 S  0.0  0.0   0:00.00 kthreadd/23992
    3 root      20   0     0    0    0 S  0.0  0.0   0:00.00 khelper/23992
  140 root      16  -4 10644  520  248 S  0.0  0.0   0:00.00 udevd
  482 root      20   0  179m 1252  828 S  0.0  0.0   0:00.04 rsyslogd
  493 dbus      20   0 21408  616  376 S  0.0  0.0   0:00.00 dbus-daemon
  510 root      20   0 66632 1232  520 S  0.0  0.0   0:00.00 sshd
  517 root      20   0 22184  904  668 S  0.0  0.0   0:00.00 xinetd
  870 root      20   0 66828  924  276 S  0.0  0.0   0:00.00 saslauthd
  871 root      20   0 66828  680   32 S  0.0  0.0   0:00.00 saslauthd
  886 root      20   0 83080 2664  840 S  0.0  0.0   0:04.99 sendmail
  894 smmsp     20   0 78668 2108  648 S  0.0  0.0   0:00.03 sendmail
  944 root      20   0  114m 1232  628 S  0.0  0.0   0:00.81 crond
  955 root      20   0 88304  21m 1784 S  0.0  0.3   0:05.25 miniserv.pl
22840 root      20   0 96276 4448 3460 S  0.0  0.1   0:00.09 sshd
22842 root      20   0  105m 1988 1524 S  0.0  0.0   0:00.03 bash
22985 root      20   0 96300 4168 3164 S  0.0  0.1   0:00.03 sshd
22987 root      20   0 57848 2340 1624 S  0.0  0.0   0:00.04 sftp-server
23313 root      20   0 96276 4472 3460 S  0.0  0.1   0:00.68 sshd
23315 root      19  -1  105m 2024 1544 S  0.0  0.0   0:00.16 bash
25080 root      19  -1 14900 1220  992 R  0.0  0.0   0:00.00 top

我知道 Linux 会在 RAM 中进行缓存,但我认为这很不正常。我可能是错的,事实上,我希望我是错的。

仔细阅读了drop_cache可以执行的删除缓存的调用后,我决定尝试一下,结果得到了这样的结果:

[root@XXXYYYZZZ ~]# sync; echo 3 > /proc/sys/vm/drop_caches
-bash: /proc/sys/vm/drop_caches: Permission denied

因此,我无法删除缓存,无法创建交换文件,并且我的 RAM 消耗非常大(并且由于mysqld崩溃而造成了一些烧伤)。

有人知道如何更好地调查此事吗?

如果我要放弃我的 VPS 提供商(最近我对它非常恼火),我需要确凿的证据证明我没有误解性能数据,或者更糟的是,合法进程确实消耗了那么多 RAM。

多谢!

更新

我跑了virt-what并得到了openvz

更新2:来自消息的 OOM 条目:

/var/log/messages-20161009:Oct  2 16:43:43 XXXYYYZZZ kernel: [56050139.271683] Out of memory in UB 23992: OOM killed process 22029 (mysqld) score 0 vm:5044284kB, rss:656944kB, swap:8280kB
/var/log/messages-20161009:Oct  2 16:43:55 XXXYYYZZZ kernel: [56050150.552528] Out of memory in UB 23992: OOM killed process 30486 (mysqld) score 0 vm:310088kB, rss:214456kB, swap:0kB
/var/log/messages-20161009:Oct  5 12:56:17 XXXYYYZZZ kernel: [56295842.893210] Out of memory in UB 23992: OOM killed process 13284 (mysqld) score 0 vm:5066092kB, rss:694760kB, swap:40kB
/var/log/messages-20161023:Oct 22 17:54:09 XXXYYYZZZ kernel: [1219419.032263] Out of memory in UB 23992: OOM killed process 789 (mysqld) score 0 vm:5057832kB, rss:698980kB, swap:0kB
/var/log/messages-20161023:Oct 22 17:54:20 XXXYYYZZZ kernel: [1219428.340161] Out of memory in UB 23992: OOM killed process 21700 (mysqld) score 0 vm:310088kB, rss:271892kB, swap:0kB
/var/log/messages-20161030:Oct 29 12:14:47 XXXYYYZZZ kernel: [1804212.497098] Out of memory in UB 23992: OOM killed process 25691 (mysqld) score 0 vm:5057548kB, rss:690164kB, swap:0kB
/var/log/messages-20161030:Oct 29 12:15:06 XXXYYYZZZ kernel: [1804222.381820] Out of memory in UB 23992: OOM killed process 23659 (mysqld) score 0 vm:310088kB, rss:248376kB, swap:0kB

答案1

首先,除非你正在做一些测试永远不需要删除缓存。Linux 内核使用“空闲”内存作为缓存。如果某个程序请求内存,而其他地方没有可用内存,则该请求将从缓存内存中得到满足。

要开始解决问题,您应该查看日志。它们应该包含来自 OOM 系统的信息,包括它为何停止运行以及它做了什么。

正如其他人所建议的,您似乎正在使用容器 VPS(openvz 等)。如果是这种情况,那么您唯一的真正解决方案可能是转移到使用不同虚拟化技术(例如 KVM 等)的其他 VPS。

答案2

你收到的错误

[root@XXXYYYZZZ ~]# sync; echo 3 > /proc/sys/vm/drop_caches
-bash: /proc/sys/vm/drop_caches: Permission denied

启用 noclobber 的结果 (man bash 并搜索 >| )。像这样尝试

sync; echo 3 >| /proc/sys/vm/drop_caches

顺便说一句 - 你可以尝试从这里开始

sync; echo 2 >| /proc/sys/vm/drop_caches

您还可以查看 slabtop 命令的输出,以查看哪些内容占用了您的内存。虽然这不会有太大帮助,但您至少会知道它是否来自某些 slab 缓存。
另外,安装 sysstat 包并启用 1 分钟分辨率的 sar,这样您就可以历史性地分析系统性能,而不是实时在线监控。

相关内容