SLES 10 SP4 (x86_64) - HP Proliant DL380 G4 - 随机变得无响应

SLES 10 SP4 (x86_64) - HP Proliant DL380 G4 - 随机变得无响应

不幸将 HP Proliant DL380 G4 从 SLES 10 SP2 (i586) 升级到 SLES 10 SP4 (x86_64)。虽然安装顺利完成,但服务器在运行几天后变得无响应。服务器响应 PING,但 SSH 甚至控制台访问失败。恢复的唯一方法是冷启动服务器。

当服务器无响应时,系统日志不会显示任何日志。通过搜索,我可以看到针对各种 Linux 版本报告了类似的情况,通常可以通过升级服务器的 BIOS 和/或固件来解决。

还在启动选项中尝试了 acpi=ht 和 acpi=off,但没有成功。

我已经升级了 HP 护照网站提供的服务器 BIOS 版本在这个链接但这并没有解决问题。

然后我尝试从这里

我已经重启了服务器,正在等待看这是否能解决问题。关于根本原因是什么以及如何修复它,有什么建议/推荐吗?

我发现一篇帖子与我所看到的非常接近Ubuntu 12.04 - HP ProLiant DL380 G4 - 负载达到最大值/无响应

服务器信息:

Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux

> lscpu
Architecture:          x86_64
CPU(s):                4
Thread(s) per core:    2 
Core(s) per socket:    1
CPU socket(s):         2
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            15
Model:                 4
Stepping:              1
CPU MHz:               3200.225
L1d cache:             16K
L2 cache:              1024K


> modinfo cciss
filename:       /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license:        GPL
description:    Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author:         Hewlett-Packard Company
srcversion:     737C49390DD1F6FB9BC03F7

>slabtop
 Active / Total Objects (% used)    : 331966 / 339552 (97.8%)
 Active / Total Slabs (% used)      : 20306 / 20315 (100.0%)
 Active / Total Caches (% used)     : 98 / 136 (72.1%)
 Active / Total Size (% used)       : 78133.61K / 79253.95K (98.6%)
 Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K

 OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME
 191752 191637  99%    0.09K   4358       44     17432K buffer_head
 44916  44891  99%    0.20K   2364       19      9456K dentry_cache
 35620  35561  99%    0.78K   7124        5     28496K ext3_inode_cache
 15064  15035  99%    0.52K   2152        7      8608K radix_tree_node
  6510   5859  90%    0.18K    310       21      1240K vm_area_struct
  5782   5689  98%    0.06K     98       59       392K size-64
  3840   3747  97%    0.08K     80       48       320K sysfs_dir_cache
  3288   3271  99%    0.61K    548        6      2192K proc_inode_cache
  3015   2259  74%    0.25K    201       15       804K filp
  2304   2043  88%    0.02K     16      144        64K anon_vma
  2304   1911  82%    0.02K     16      144        64K dm_tio
  2208   1899  86%    0.04K     24       92        96K dm_io
  2106   2096  99%    0.58K    351        6      1404K inode_cache
  1710   1633  95%    0.12K     57       30       228K size-128
  1680   1515  90%    0.03K     15      112        60K size-32
  1480   1169  78%    0.09K     37       40       148K journal_head

任何指点都将不胜感激。

答案1

2003-2006 年,在使用 Red Hat/CentOS 系统时,我曾遇到过许多 HP Smart Array 6400/641/6i SCSI RAID 控制器以类似的方式挂起的情况。您正在丢失 RAID 控制器和底层存储系统。由于操作系统无法从磁盘读取数据,I/O 停滞甚至控制台登录失败。网络堆栈在内存中,因此系统会响应 ping。

有些是驱动程序交互。有些只是这些系统不适合与现有的操作系​​统一起使用。除了使用更现代的硬件之外,没有其他选择(或者购买另一套在 eBay 上售价 18 美元进行测试)。在那个时期,这种情况并没有发生在我所有的服务器上,但肯定对某些服务器的影响比其他服务器更大。

没有固件更新,因为上次修订是 2008 年。系统 BIOS 也在 2008 年停止接收更新。不支持此存储问题或服务器硬件任何方式。

DL380 G4 是一款已有 10 年历史的服务器,采用古老的技术(PCI-X、Ultra SCSI 等)。您会期望支持这种古老的台式机吗?

看:HP Proliant DL380 G4——该服务器在 2011 年还能运行吗?

相关内容