CentOS 6.3 任务阻塞超过 120 秒

CentOS 6.3 任务阻塞超过 120 秒

最近,我们收到了有关我们的邮件系统不可用的 Zabbix 警报,机器的正常运行时间超过 30 天。我一直在跟踪 Zabbix 日志,看起来 Zabbix 代理与服务器之间的通信未能及时响应,从而触发了警报。

为了查明是否是网络问题等,我查看了 /var/log/messages 并发现以下条目:

Nov 14 21:48:49 iw kernel: INFO: task zabbix_agentd:3316 blocked for more than 120 seconds.
Nov 14 21:48:49 iw kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Nov 14 21:48:49 iw kernel: zabbix_agentd D 0000000000000003     0  3316   3311 0x00000080
Nov 14 21:48:49 iw kernel: ffff880069075c50 0000000000000086 ffffffff817a8d69 ffff880069075c68
Nov 14 21:48:49 iw kernel: ffff880486ea3000 ffff880069075c58 ffffffff8127cb66 0000000000000009
Nov 14 21:48:49 iw kernel: ffff88042085bab8 ffff880069075fd8 000000000000fb88 ffff88042085bab8
Nov 14 21:48:49 iw kernel: Call Trace:
Nov 14 21:48:49 iw kernel: [<ffffffff8127cb66>] ? vsnprintf+0x2b6/0x5f0
Nov 14 21:48:49 iw kernel: [<ffffffff814ffec5>] rwsem_down_failed_common+0x95/0x1d0
Nov 14 21:48:49 iw kernel: [<ffffffff81500056>] rwsem_down_read_failed+0x26/0x30
Nov 14 21:48:49 iw kernel: [<ffffffff8127e664>] call_rwsem_down_read_failed+0x14/0x30
Nov 14 21:48:49 iw kernel: [<ffffffff814ff554>] ? down_read+0x24/0x30
Nov 14 21:48:49 iw kernel: [<ffffffff81140511>] __access_remote_vm+0x41/0x1f0
Nov 14 21:48:49 iw kernel: [<ffffffff81144052>] ? vma_merge+0x1d2/0x3e0
Nov 14 21:48:49 iw kernel: [<ffffffff8114071b>] access_process_vm+0x5b/0x80
Nov 14 21:48:49 iw kernel: [<ffffffff811e295d>] proc_pid_cmdline+0x6d/0x120
Nov 14 21:48:49 iw kernel: [<ffffffff8115c30a>] ? alloc_pages_current+0xaa/0x110
Nov 14 21:48:49 iw kernel: [<ffffffff811e357d>] proc_info_read+0xad/0xf0
Nov 14 21:48:49 iw kernel: [<ffffffff8117b9e5>] vfs_read+0xb5/0x1a0
Nov 14 21:48:49 iw kernel: [<ffffffff810d6b12>] ? audit_syscall_entry+0x272/0x2a0
Nov 14 21:48:49 iw kernel: [<ffffffff8117bb21>] sys_read+0x51/0x90
Nov 14 21:48:49 iw kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b

内核信息:

Linux 邮件 2.6.32-279.2.1.el6.x86_64 #1 SMP 星期五 7 月 20 日 01:55:29 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

内存信息:

             total       used       free     shared    buffers     cached
Mem:         24031      21497       2533          0        606      14562
-/+ buffers/cache:       6328      17702
Swap:        31999         49      31950

我正在寻找一些指导,以便从哪里开始缩小这些问题的根本原因。

答案1

发现这篇文章,不确定它是否适合您。http://blog.ronnyegner-consulting.de/2011/10/13/info-task-blocked-for-more-than-120-seconds/

您的 CPU 有多大?看起来您的内存相当多(24GB)。如果这篇博文是正确的,那么您的系统可能无法足够快地从缓存中转储内存以处理您即将遇到的 IO。

您可以设置“vm.dirty_ratio=10”/etc/sysctl.conf强制其尽快冲洗。这可能会帮助您解决问题。

相关内容