不幸将 HP Proliant DL380 G4 从 SLES 10 SP2 (i586) 升级到 SLES 10 SP4 (x86_64)。虽然安装顺利完成,但服务器在运行几天后变得无响应。服务器响应 PING,但 SSH 甚至控制台访问失败。恢复的唯一方法是冷启动服务器。
当服务器无响应时,系统日志不会显示任何日志。通过搜索,我可以看到针对各种 Linux 版本报告了类似的情况,通常可以通过升级服务器的 BIOS 和/或固件来解决。
还在启动选项中尝试了 acpi=ht 和 acpi=off,但没有成功。
我已经升级了 HP 护照网站提供的服务器 BIOS 版本在这个链接但这并没有解决问题。
然后我尝试从这里
我已经重启了服务器,正在等待看这是否能解决问题。关于根本原因是什么以及如何修复它,有什么建议/推荐吗?
我发现一篇帖子与我所看到的非常接近Ubuntu 12.04 - HP ProLiant DL380 G4 - 负载达到最大值/无响应
服务器信息:
Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux
> lscpu
Architecture: x86_64
CPU(s): 4
Thread(s) per core: 2
Core(s) per socket: 1
CPU socket(s): 2
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 15
Model: 4
Stepping: 1
CPU MHz: 3200.225
L1d cache: 16K
L2 cache: 1024K
> modinfo cciss
filename: /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license: GPL
description: Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author: Hewlett-Packard Company
srcversion: 737C49390DD1F6FB9BC03F7
>slabtop
Active / Total Objects (% used) : 331966 / 339552 (97.8%)
Active / Total Slabs (% used) : 20306 / 20315 (100.0%)
Active / Total Caches (% used) : 98 / 136 (72.1%)
Active / Total Size (% used) : 78133.61K / 79253.95K (98.6%)
Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K
OBJS ACTIVE USE OBJ SIZE SLABS OBJ/SLAB CACHE SIZE NAME
191752 191637 99% 0.09K 4358 44 17432K buffer_head
44916 44891 99% 0.20K 2364 19 9456K dentry_cache
35620 35561 99% 0.78K 7124 5 28496K ext3_inode_cache
15064 15035 99% 0.52K 2152 7 8608K radix_tree_node
6510 5859 90% 0.18K 310 21 1240K vm_area_struct
5782 5689 98% 0.06K 98 59 392K size-64
3840 3747 97% 0.08K 80 48 320K sysfs_dir_cache
3288 3271 99% 0.61K 548 6 2192K proc_inode_cache
3015 2259 74% 0.25K 201 15 804K filp
2304 2043 88% 0.02K 16 144 64K anon_vma
2304 1911 82% 0.02K 16 144 64K dm_tio
2208 1899 86% 0.04K 24 92 96K dm_io
2106 2096 99% 0.58K 351 6 1404K inode_cache
1710 1633 95% 0.12K 57 30 228K size-128
1680 1515 90% 0.03K 15 112 60K size-32
1480 1169 78% 0.09K 37 40 148K journal_head
任何指点都将不胜感激。
答案1
2003-2006 年,在使用 Red Hat/CentOS 系统时,我曾遇到过许多 HP Smart Array 6400/641/6i SCSI RAID 控制器以类似的方式挂起的情况。您正在丢失 RAID 控制器和底层存储系统。由于操作系统无法从磁盘读取数据,I/O 停滞甚至控制台登录失败。网络堆栈在内存中,因此系统会响应 ping。
有些是驱动程序交互。有些只是这些系统不适合与现有的操作系统一起使用。除了使用更现代的硬件之外,没有其他选择(或者购买另一套在 eBay 上售价 18 美元进行测试)。在那个时期,这种情况并没有发生在我所有的服务器上,但肯定对某些服务器的影响比其他服务器更大。
没有固件更新,因为上次修订是 2008 年。系统 BIOS 也在 2008 年停止接收更新。不支持此存储问题或服务器硬件任何方式。
DL380 G4 是一款已有 10 年历史的服务器,采用古老的技术(PCI-X、Ultra SCSI 等)。您会期望支持这种古老的台式机吗?