ubuntu 14.04.1 服务器空闲负载平均 1.00

ubuntu 14.04.1 服务器空闲负载平均 1.00

我在这里挠头。希望有人能帮我解决问题。

我有一台 Dell PowerEdge SC1435 服务器,它已经运行了以前版本的 ubuntu 一段时间。(我相信它是 13.10 服务器 x64)

我最近重新格式化了驱动器(SSD)并安装了 ubuntu 服务器 14.04.1 x64。

安装过程中一切似乎都很好,但机器在内核输出结束时首次启动时挂起,就在我期望屏幕清除并出现登录提示之前。我看到内核输出结束时没有明显的错误。(有一条关于“未使用不可靠的 CPU 热传感器”的消息,但无论是否启动,这条消息似乎都存在)

我等了整整 5 分钟,然后强制重启。令我惊讶的是,它在 BIOS POST 后大约 1-2 秒内启动到登录提示符。我再次重启,它似乎在之前挂起的地方多停顿了几秒钟,但继续进入登录屏幕。再次重启后,它又很快了。所以在这一点上,我认为这只是那些我永远无法解释的随机一次性故障之一,所以我继续了下去。

我安装了几个软件包(与其他硬件上相同操作系统版本上安装的软件包完全相同),执行了 apt upgrade 和 dist-upgrade,然后重新启动。它似乎又挂了,所以我开车去了数据中心并连接了一个控制台,结果却只看到一个空白屏幕。再次强制重启。(还设置了 ipmi 进行远程重启,并删除了 grub recordfail,这样它就不会等我按回车键了!)

昨晚太晚了。我回到家,重启了几次,没有问题,然后就睡觉了。今天我再次重启了一下,检查了一下,结果又在某处崩溃了。我远程强制重启了它。

此时我开始进一步挖掘并立即发现了一些非常奇怪的事情。

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

该服务器完全未使用且处于空闲状态,但它的 1 分钟负载平均值恰好为 1.00?当我观察其他值时 - 5 分钟和 15 分钟的值似乎也正朝着 1.00 前进,所以我假设它们在某个时候都会达到 1.00。(“1 Running” 是顶部进程)

我以前从未遇到过这种情况,而且由于我不知道是什么原因导致启动崩溃,所以我现在假设这两者很可能有关。

我想要做的是找出(并且希望消除)导致错误负载平均值和崩溃问题的原因。

到目前为止,我还无法确定哪个进程可能正在等待某种资源来生成该负载平均值。

如果有人能帮助我尝试找到它,我将非常感激。

top 显示所有进程几乎总是处于休眠状态。有些进程偶尔会跳到顶部,但我认为这很正常。CPU 使用率大多显示 100% 空闲,偶尔会降至 99% 左右。

nmon 没有向我显示太多信息。一切看起来都很空闲。

iotop 几乎没有显示任何流量。(同样,偶尔会出现磁盘访问的情况)

中断频率似乎很低。据我所知,远低于 100/秒。

我看到许多谷歌讨论都建议这样做:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..没有效果。

服务器中的 RAM 是 ECC 并且测试通过。

服务器安装“最小化”(F4 选项),安装过程中勾选 OpenSSH 服务器。之后安装了一些软件包,包括 vim、bcache-tools、bridge-utils、qemu、software-properties-common、open-iscsi、qemu-kvm、cpu-checker、socat、ntp 和 nodejs。(想想就这些)

我尝试禁用并删除 bcache 内核模块。没有效果。停止 iscsi 服务..没有效果。(尽管此服务器上尚未配置任何内容)

我会把它留在那里,以免它变得太长。如果有人能帮助我解决这个问题,我将不胜感激。

干杯,

詹姆士

相关内容