我在 Ubuntu 10.04 上运行 PostgreSQL 8.4.5。我运行一个 EC2 实例,其中有几个站点在 nginx 上运行。这些站点中的大多数都在 Django 上运行并连接到这个 Postgres 实例。
由于某种原因,今晚 8:45,Postgres 宕机了。我登录了机器,看到了以下错误消息:
* Starting PostgreSQL 8.4 database server
* The PostgreSQL server failed to start. Please check the log output:
2011-04-17 04:46:49 UTC FATAL: could not create shared memory segment: Cannot allocate memory
2011-04-17 04:46:49 UTC DETAIL: Failed system call was shmget(key=5432001, size=16211968, 03600).
2011-04-17 04:46:49 UTC HINT: This error usually means that PostgreSQL's request for a shared memory segment exceeded available memory or swap space. To reduce the request size (currently 16211968 bytes), reduce PostgreSQL's shared_buffers parameter (currently 1792) and/or its max_connections parameter (currently 53).
The PostgreSQL documentation contains more information about shared memory configuration.
...fail!
我做的第一件事是改变 Linux 共享内存分配。
sysctl -w kernel.shmmax=367108864>
sysctl -p /etc/sysctl.conf
这没用。所以我编辑/etc/postgresql/8.4/main/postgresql.conf
并降低了max_connections
值。这有效......大约 10 分钟。
现在,无论值多低,我都会收到相同的错误max_connections
。我需要将其设置为至少 9(因为这是需要访问此 Postgres 服务器的 Django 项目的数量)。
关于如何修复此问题我有什么想法吗?
答案1
您可以使用“ipcs”命令列出所有 SHM 段。如果程序崩溃而没有删除它们,它们可能会占用内存;您可以使用“ipcrm”命令手动删除它们。
答案2
一些谷歌搜索表明你应该减少 postgres shared_buffers和max_connections 数字。您对 shared_buffers 做过什么吗?
您是否已查看postgresql 共享内存文档? 其中有很多关于如何在 Linux 机器上调整共享内存参数的详细信息。
答案3
您能显示更详细的集群日志吗?postmaster 是否任意崩溃?它向操作系统返回哪个代码?您有多少个 PostgreSQL 集群,只有 8.4/main 吗?
你的 kernel.shmall 和 kernel.shmmni 怎么样?尝试使用 ipcs -ml、ipcs -m 并检查你的内存(free、top、System Monitor)使用情况。尝试让 OOM killer 冷静下来:
vm.overcommit_memory = 2
vm.overcommit_ratio = 50
据我所知,sysctl -w
不会永久改变参数(直到下次操作系统重新启动),您需要添加kernel.shmmax=367108864
到 /etc/sysctl.conf。
如果可能的话,请按照以下建议将 PostgreSQL 升级到 8.4.8版本控制策略:
无论正在使用什么主要版本,我们始终建议所有用户运行最新的可用次要版本。
我认为这可能是 OOM 杀手问题,因为它使用 SIGKILL 信号杀死了 postmaster,并且没有释放共享内存。看看文档:
重要提示:最好不要使用 SIGKILL 关闭服务器。这样做会阻止服务器释放共享内存和信号量,在启动新服务器之前,可能必须手动完成这些操作。此外,SIGKILL 会终止 postgres 进程,而不会让其将信号转发给其子进程,因此还需要手动终止各个子进程。
和这里:
在 Linux 2.4 及更高版本中,默认虚拟内存行为对 PostgreSQL 来说不是最佳的。由于内核实现内存过量使用的方式,如果另一个进程的内存需求导致系统耗尽虚拟内存,内核可能会终止 PostgreSQL 服务器(主服务器进程)。
顺便说一下,max_connections 很“便宜”。最好减少 shared_buffers。