DELL PowerEdge - 上次启动时系统出现致命错误

DELL PowerEdge - 上次启动时系统出现致命错误

我的专用 DELL R710 服务器(CentOS 6.4)正在自行重启并弹出以下错误。

在此处输入图片描述

这是否意味着该盒子无法启动,或者它的内核在 Linux 启动过程中出现崩溃并且服务器以某种方式知道?

有人能提供诊断建议吗?或者这是否是硬件问题,应该交给我租用该盒子的数据中心?几个月来一直运行良好,但现在过去两天随机重启。

更新- Box 继续重新启动一分钟,然后下一行条目显示内核启动,没有任何关机或其他错误消息。

Jan 10 16:29:12 squirtle kernel: Firewall: *TCP_IN Blocked* IN=em1 OUT= MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00 SRC=93.174.93.67 DST=13.129.118.21 LEN=40 TOS=0x00 PREC=0x00 TTL=245 ID=54321 PROTO=TCP SPT=35003 DPT=21320 WINDOW=65535 RES=0x00 SYN URGP=0
Jan 10 16:35:50 squirtle kernel: Firewall: *UDP_IN Blocked* IN=em1 OUT= MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00 SRC=179.107.38.35 DST=13.129.118.21 LEN=443 TOS=0x00 PREC=0x00 TTL=53 ID=0 DF PROTO=UDP SPT=5067 DPT=5060 LEN=423
Jan 10 16:42:05 squirtle kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jan 10 16:42:05 squirtle rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1203" x-info="http://www.rsyslog.com"] start
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpuset
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpu
Jan 10 16:42:05 squirtle kernel: Linux version 2.6.32-431.3.1.el6.i686 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC) ) #1 SMP Fri Jan 3 18:53:30 UTC 2014
Jan 10 16:42:05 squirtle kernel: KERNEL supported cpus:
Jan 10 16:42:05 squirtle kernel:  Intel GenuineIntel
Jan 10 16:42:05 squirtle kernel:  AMD AuthenticAMD
Jan 10 16:42:05 squirtle kernel:  NSC Geode by NSC
Jan 10 16:42:05 squirtle kernel:  Cyrix CyrixInstead
Jan 10 16:42:05 squirtle kernel:  Centaur CentaurHauls
Jan 10 16:42:05 squirtle kernel:  Transmeta GenuineTMx86
Jan 10 16:42:05 squirtle kernel:  Transmeta TransmetaCPU
Jan 10 16:42:05 squirtle kernel:  UMC UMC UMC UMC

更新 2

过去 4 天我一直stress在服务器上运行该实用程序,服务器一次都没有重启过。它以 100% 的 CPU 占用率将所有核心最大化。我需要检查压力是否在使用内存或磁盘写入,但就处理器而言,它们似乎没问题。

答案1

由于 R710 是 2009/2010 年生产的,因此组件出现故障的可能性始终存在。

戴尔文档(尽管对于 R410)说:

Alert! System fatal error during previous boot.
An error caused the system to reboot.
Check other system messages for additional information for possible causes. 

由于我看到的唯一其他消息是关于风扇速度,我认为您应该仔细检查并记录温度及其变化。

例如如何监控和记录服务器硬件温度和负载

打开服务器、清理并检查所有联系人也不会有什么坏处。

您可以尝试使用文章中的工具如何解决 Linux 中的硬件问题并在此报告他们的结果。

答案2

该消息来自 BIOS,要求您继续。这意味着主板在硬件级别发现了一些它不喜欢的东西。如果操作系统有机会,它就不会这样做,而是会将一些内容记录到消息文件中。我会要求在服务器上运行完整的诊断。F1/F2 提示通常是 BIOS 配置错误或硬件故障警报。

相关内容