首先,我们向 Novell 提交了一份 SR,但我想我还是会在这里问。简要情况如下。
当其中一个接入网关 (LAG) 上的平均负载飙升至 2.0 以上时,我看到一些 CPU 等待时间,ics_dyn 进程超过 50%,java 进程超过 112%。- 它只持续了大约 1 秒钟。平均负载立即回落,有问题的进程的 CPU 占用率降至 10% 以下。
我进入 Web 控制台,发现 LAG 没有响应。我刷新了一下,它马上就变绿了。
看起来好像进程正在激增,CPU 超过了 100%,而其他进程现在正在等待 CPU 时间 ics_dyn 重新启动,一切都恢复正常,但循环又重新开始。
grep RESTARTED ics_dyn.log
Mar 29 09:34:58 <SERVERNAME> vmcontroller: AM#404514000: AMDEVICEID#: AMAUTHID#0: AMEVENTID#0: VM-0 DOWN, being RESTARTED (Tue Mar 29 09:34:57 2011 ). restarted 60 times. fastRestartMode.
Mar 29 09:38:33 <SERVERNAME> vmcontroller: AM#404514000: AMDEVICEID#: AMAUTHID#0: AMEVENTID#0: VM-0 DOWN, being RESTARTED (Tue Mar 29 09:38:32 2011 ). restarted 61 times. fastRestartMode.
Mar 29 09:51:17 <SERVERNAME> vmcontroller: AM#404514000: AMDEVICEID#: AMAUTHID#0: AMEVENTID#0: VM-0 DOWN, being RESTARTED (Tue Mar 29 09:51:16 2011 ). restarted 62 times. fastRestartMode.
dmesg 中有很多这样的信息。
ics_dyn[11708]: segfault at 1c ip b5caf868 sp b22561d0 error 4 in libproxy.so.1[b5b8b000+1e2000]
我知道会有人要求提供更多信息,我准备提供。这个问题有点奇怪,我认为这是访问管理器软件的一个错误。
版本 2.7.3 (20100428_184640) 版权所有 (c) 1999-2009 Novell, Inc. 保留所有权利。
战地补丁:战地补丁 3 -- 20100425
答案1
在核心转储和日志分析之后,Novell 提供了修复。这是他们代码中的一个错误,他们提供了一个重新编译的 libproxy。