Solaris 10 服务器似乎正在自行关闭

Solaris 10 服务器似乎正在自行关闭

每隔几周,我们的一台 Solaris 10 服务器就会变得无响应。我可以通过 telnet 连接到端口 22 并获取 SSH 横幅,但我无法真正与其建立 SSH 连接。这是一台 Dell R610,因此我通过 DRAC 控制台登录,虽然我可以按 Enter 键并获得新行,但每当我尝试运行诸如“prstat”之类的命令时,控制台就会挂起,我无法按 Control-C 或任何其他操作。我也无法向它发送 CTRL-ALT-DEL 来正常重新启动,最终不得不进行远程硬电源循环。

日志中没有出现任何奇怪的情况,我们尝试设置 cron 来每分钟捕获并将 prstat、iostat、vmstat、sar 等的输出附加到一个文件中,试图查看是什么原因造成的,但我们看到的是机器很好,然后一切似乎都停止了。

我们也在 Cacti 中绘制指标图表,但什么也没看到。就像我说的,一切正常,然后数据就停止了。

问题昨晚再次发生,我们在“最后”输出中发现机器似乎在无响应之前的几个小时开始关闭(没有人关闭它),这里是输出:

重启系统启动 星期二 11 月 23 日 17:24 <-- 这是我重新启动它的地方。 重启系统关闭 星期二 11 月 23 日 15:01

DRAC 中没有环境或机箱警报。

我检查了所有可能以某种方式关闭服务器的 cron 等,但什么也没发现。我想启用 auditd,但这需要重新启动,而且这是一个主要的生产系统。

有人能提供一些建议吗?

戴尔 R610 Solaris 10 5/09 s10x_u7wos_08 X86

谢谢,

谢恩

答案1

我发现如果我进入 BIOS->CPU 设置并禁用 C 设置,服务器就不会再崩溃。它们已经运行了一个多月,而其他没有设置标志的服务器仍然崩溃。

答案2

我在运行 Solaris 10 9/10 s10x_u9wos_14a 的 Dell R410 上也遇到了同样的情况。

我发现这个线程使我认为我应该使用 broadcom 驱动程序而不是 Solaris 进行安装。 http://opensolaris.org/jive/thread.jspa?messageID=491917 http://forums.oracle.com/forums/thread.jspa?threadID=1924459&tstart=15

我打算这个周末尝试安装它,但如你所知,只有时间能证明一切,因为在问题发生之前绝对找不到任何痕迹。

fmdump -e fmdump 的输出:/var/fm/fmd/errlog 为空。

答案3

首先要检查的是 - 您是否在为硬件运行最新补丁级别和更新固件?您在主机上运行了哪些软件,是否已应用最新补丁?主机是否具有足够的清洁电源和冷却系统?

检查 HCL,看起来 Dell R610认证关于 OpenSolaris 和 Solaris 11 Express,但没有提及 Solaris 10。

嗯。

相关内容