我们有几台 DELL 1950 服务器。其中一台服务器安装了 CentOS6.3,并且会随机重启,所以我怀疑是硬件问题(没有生成日志)。其他四台服务器不会随机重启。
我们在五台服务器上运行了 memtest86+,其中三台的 memtest86+ 崩溃了(显示奇怪的彩色屏幕,就像视频卡出现故障一样)。
我测试了旧的 memtest86(不是 +),没有任何服务器崩溃。我还测试了其他 RAM 测试实用程序,没有任何工具出现故障。
你们当中有人经历过这样的事情吗?
答案1
如果 memtest 崩溃,则很有可能是内存有问题。尝试更换未崩溃服务器的内存并重新运行 memtest。最有可能是内存出了问题。您还可以将内存减少一半(系统允许;最低内存要求)并尝试运行 memtest。通过后,尝试用另一半内存替换并查看。
答案2
如果您的 Linux 服务器正在重新启动,这通常意味着存在硬件问题。请检查 Dell OMSA(Dell Open Manager System Administrator 管理节点)中的日志。或通过 DRAC(Dell 远程访问卡)检查。
联系戴尔技术支持,协助您调查问题。
答案3
另一个非常有用的测试和诊断工具是 UBCD。它包括 memtest 和 memtest+。新版本甚至有一个用于 GPU 的内存测试器。如果你怀疑视频也存在问题,这会派上用场。