服务器在负载下冻结

Question 1

我认为这种模式可能与写入 I/O 过高导致磁盘无法同步有关。这可以解释负载突然激增而没有记录任何内容的情况，这种情况最终会自行解决。

如果是这种情况，当系统冻结时，/proc/meminfo 将显示“Dirty”的高值，并且您可能会看到如下 dmesg/syslog 消息：

INFO: task syslogd:1500 blocked for more than 120 seconds. 
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. 
syslogd D 0000000000000110 0 1500 1 1503 1491 (NOTLB) 
 ffff8800b0739d88 0000000000000286 ffff8800b8922970 ffff8800b8922970 
 0000000000000009 ffff8800bb2dd0c0 ffff8800baa55080 0000000000002b40 
 ffff8800bb2dd2a8 0000000000000000 
Call Trace: 
 [] :jbd:log_wait_commit+0xa3/0xf5 
 [] autoremove_wake_function+0x0/0x2e 
 [] :jbd:journal_stop+0x1cf/0x1ff 
 [] __writeback_single_inode+0x1d9/0x318 
 [] do_readv_writev+0x26e/0x291 
 [] sync_inode+0x24/0x33 
 [] :ext3:ext3_sync_file+0xcc/0xf8 
 [] do_fsync+0x52/0xa4 
 [] __do_fsync+0x23/0x36 
 [] tracesys+0xab/0xb6

如果发生这种情况，您必须找到某种方法来减少写入的负担，通过限制写入，或通过缓存写入，或者通过将磁盘调度程序切换到 noop，或者......等等。有时，将内存投入到这个问题上会有所帮助，因为系统在冻结之前将能够容忍“脏”内存中更大的峰值。

Answer

我认为这种模式可能与写入 I/O 过高导致磁盘无法同步有关。这可以解释负载突然激增而没有记录任何内容的情况，这种情况最终会自行解决。

如果是这种情况，当系统冻结时，/proc/meminfo 将显示“Dirty”的高值，并且您可能会看到如下 dmesg/syslog 消息：

INFO: task syslogd:1500 blocked for more than 120 seconds. 
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. 
syslogd D 0000000000000110 0 1500 1 1503 1491 (NOTLB) 
 ffff8800b0739d88 0000000000000286 ffff8800b8922970 ffff8800b8922970 
 0000000000000009 ffff8800bb2dd0c0 ffff8800baa55080 0000000000002b40 
 ffff8800bb2dd2a8 0000000000000000 
Call Trace: 
 [] :jbd:log_wait_commit+0xa3/0xf5 
 [] autoremove_wake_function+0x0/0x2e 
 [] :jbd:journal_stop+0x1cf/0x1ff 
 [] __writeback_single_inode+0x1d9/0x318 
 [] do_readv_writev+0x26e/0x291 
 [] sync_inode+0x24/0x33 
 [] :ext3:ext3_sync_file+0xcc/0xf8 
 [] do_fsync+0x52/0xa4 
 [] __do_fsync+0x23/0x36 
 [] tracesys+0xab/0xb6

如果发生这种情况，您必须找到某种方法来减少写入的负担，通过限制写入，或通过缓存写入，或者通过将磁盘调度程序切换到 noop，或者......等等。有时，将内存投入到这个问题上会有所帮助，因为系统在冻结之前将能够容忍“脏”内存中更大的峰值。

Question 2

您可以尝试以下几种方法来获取更多信息：

如果你认为你的服务器已经完全崩溃，你可以从网络控制台如果由于某种原因您无法访问默认控制台。
如果你使用 -p 标志运行 Asterisk，并且它可能正在锁定系统，你可以尝试确保你可以创建一个新的 ssh shell，例如：# for pid in `pidof sshd`; do chrt -p -f 99 $pid; done
您还可以尝试设置以下选项，以便在内核检测到问题时自动重新启动：# sysctl -w kernel.panic_on_oops=1; sysctl -w kernel.panic=1; sysctl -w kernel.softlockup_panic=1。

Answer

您可以尝试以下几种方法来获取更多信息：

如果你认为你的服务器已经完全崩溃，你可以从网络控制台如果由于某种原因您无法访问默认控制台。
如果你使用 -p 标志运行 Asterisk，并且它可能正在锁定系统，你可以尝试确保你可以创建一个新的 ssh shell，例如：# for pid in `pidof sshd`; do chrt -p -f 99 $pid; done
您还可以尝试设置以下选项，以便在内核检测到问题时自动重新启动：# sysctl -w kernel.panic_on_oops=1; sysctl -w kernel.panic=1; sysctl -w kernel.softlockup_panic=1。

服务器在负载下冻结

答案1

答案2

相关内容