尝试在这里发布这个问题。我也在 Ubuntu 论坛上发布过这个问题,但没有人回复。
最近我将 HP ProLiant DL380 G4 服务器从 Ubuntu 10.04 服务器升级到 Ubuntu 12.04 服务器。
这样做之后,服务器将不会在随机时间达到 400 以上的负载,然后变得完全没有响应。我使用 SNMP 绘图程序 (cacti),负载每五分钟稳定增加约 10,直到超过 400 并且绘图停止。
图表可能不准确,但在发生这种情况之前,CPU 负载平均约为 3% - 而当负载开始增加时,它会在 15 分钟内跳到 25% 左右,然后急剧下降到 1% 以下(约 0.3%),直到图表停止。
我无法打开到服务器的 SSH 隧道来执行任何操作。我检查了 /var/log/syslog,所有日志记录也都停止了 - 里面没有其他内容。
奇怪的是 - 该服务器仍然以正常速度响应其在这段时间内具有权威性的区域的 DNS 查询。
只是不确定下一步该怎么做才能找出问题所在 - 以及如何纠正这个问题。服务器不能继续使用 Ubuntu 10.04 Server,需要继续升级。
答案1
这可能是 I/O 相关的问题,因为磁盘和所有写入活动都停止了。内核和网络堆栈在 RAM 中运行,因此服务器可以 ping 通。
我要检查的主要内容是系统的 BIOS/固件,以及系统上的智能阵列控制器的固件版本。这是一个老的ProLiant DL380 G4(大约 2005 年),因此您要么拥有板载 Smart Array 6i 控制器,要么拥有 Smart Array 641 控制器或 Smart Array 6400 系列控制器。
你能告诉我们更多吗?
负载快速上升是由于进程被阻塞以等待 I/O。您没有说明系统上运行着什么类型的应用程序,但似乎可能有 380 多个进程在等待磁盘 :)
- 编辑 -
所以,这些年来我部署了很多这样的服务器。你能访问固件吗?你在运行HP 管理代理? 这将使您更深入地了解您所需要的内容并获得适当的驱动程序。
最后……这真的是老旧的装备……您会考虑升级吗?
看:HP Proliant DL380 G4——该服务器在 2011 年还能运行吗?
- 编辑 -
尝试# modinfo cciss
并发布结果。
[root@MDMarra ~]# modinfo cciss
filename: /lib/modules/2.6.32-279.14.1.el6.x86_64/kernel/drivers/block/cciss.ko
license: GPL
version: 3.6.28
description: Driver for HP Smart Array Controllers
author: Hewlett-Packard Company
srcversion: 712C176F5D360D8C1166F22