mcelog

有 MCE 错误,但没有 edac-util 错误?
mcelog

有 MCE 错误,但没有 edac-util 错误?

我有一台较旧的 HP Z440 塔式机,配备 4x8GB ECC DDR4,运行 Proxmox VE 6.4。最近,它每隔几秒钟就会显示一次 MCE 错误。我安装了 rasdaemon,可以看到它们是内存读取错误。但是,edac-util 没有显示任何问题的迹象。Memtest 通过了,但我知道对于可纠正的错误来说这是正常的。 只有一个插槽,并且 DIMM 安装在插槽 1、3、6 和 8(这似乎是此型号的首选)。 我是否确实存在内存错误?我该如何进一步排除故障? dmesg: root@pve:~# dmesg ... [ 5729.899255] mce...

Admin

查找(内存读取)硬件错误的来源
mcelog

查找(内存读取)硬件错误的来源

登录我的服务器时,我看到很多以下错误: Message from syslogd@****** at May 31 20:06:59 ... kernel:[500570.908383] mce: [Hardware Error]: PROCESSOR 0:206d7 TIME 1622484419 SOCKET 0 APIC 0 microcode 71a Message from syslogd@****** at May 31 20:10:11 ... kernel:[500762.908155] mce: [Hardware Error]: C...

Admin

mcelog 和 HP BL460:了解 DIMM 错误
mcelog

mcelog 和 HP BL460:了解 DIMM 错误

正如标题所述,在我的一台 BL460 上,我安装了 RedHat,并且 mcelog deamon 在 /var/log/messages 中反复出现一条消息,告诉我: mcelog:已更正页面 61a5dd000 上的内存错误,超过阈值 24 小时内 10 个:24 小时内 10 个 mcelog:位置 SOCKET:1 CHANNEL:1 DIMM:0 [] mcelog:离线页面 61a5dd000 mcelog:离线页面 61a5dd000 失败:输入/输出错误 我有两个问题: 该消息是否“正常”,我的意思是系统发现错误,纠正它们,然后在所有...

Admin

服务器启动后内核崩溃,不知道日志该如何处理
mcelog

服务器启动后内核崩溃,不知道日志该如何处理

我们刚刚收到一台全新的双 CPU 服务器,它在启动后不久就不断崩溃并出现内核崩溃,这种情况甚至在操作系统设置期间也发生过,当时它处于空闲状态。我能够安装操作系统并启用 mcelog 来尝试了解发生了什么,尽管我不确定输出是什么。在网上阅读让我认为这可能是其中一个插槽 (1) 上的 DIMM 有缺陷,但我多次运行 memtest 却没有发现错误。这可能是软件问题吗?我已经尝试了 2 个操作系统,两者都发生了同样的事情,尽管在 Debian/Proxmox 中发生这种情况比在 CentOS 中更常见。 服务器规格: 双 Intel 8 核 Xeon E5-2...

Admin

“英特尔 QPI 物理层检测到 QPI 带内重置但中止初始化”
mcelog

“英特尔 QPI 物理层检测到 QPI 带内重置但中止初始化”

我有一台 Linux 服务器,它记录了以下 mcelog 错误: Hardware event. This is not a software error. MCE 0 CPU 0 BANK 20 MISC 800000 TIME 1476167381 Tue Oct 11 06:29:41 2016 MCG status: MCi status: Corrected error MCi_MISC register valid MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction Req...

Admin

在 kvm 虚拟机内运行 mcelog 有意义吗?
mcelog

在 kvm 虚拟机内运行 mcelog 有意义吗?

我想它会捕获 qemu / kvm / libvirt 错误,并且可能与实际硬件无关。当然,在主机上运行 mcelog,但是在 kvm 虚拟机内运行它值得/有帮助吗? ...

Admin

mca 中的总线和互连错误是什么?
mcelog

mca 中的总线和互连错误是什么?

在 Intel Mache-check 错误MCA error code field [15:0]寄存器中IA32_MCi_STATUS,我们看到不同的错误类型,例如: 000F 0000 0000 11LL – Generic cache hierarchy errors. 000F 0000 0001 TTLL – TLB errors. 000F 0000 1MMM CCCC – Memory controller errors (Intel-only). 000F 0001 RRRR TTLL – Memory errors in the cache...

Admin

CPU#X 卡住了 22 秒!
mcelog

CPU#X 卡住了 22 秒!

我的计算机遇到不同的硬件错误(见下图,不幸的是我的经验是它们没有被写入磁盘)。它们在通过 LAN 传输数据时最常出现,我无法使用stress-ng 生成它们。 该计算机还出色地通过了 24 小时内存测试(大约 11 次通过)。其处理器为A10-9700 APU。 PSU 为 beQuiet Pure 750 W,计算机已清洁,重新涂抹导热膏。这是第二个PSU(PSU的改变没有带来任何改进,之前它有一个预算为500W的Chieftec)。 剩下的就在截图里了。我已经将BIOS更新到F24版本,没有任何改进(从来没有版本不支持CPU)。 当专用于集成显卡的内存设...

Admin

每当内核/系统抛出 edac 错误时都需要调用脚本
mcelog

每当内核/系统抛出 edac 错误时都需要调用脚本

每当系统生成 EDAC 错误时,我都需要调用脚本。 为此,我创建了以下 UDEV 规则。如果ce_count发生更改,那么我想执行/var/tmp/test.sh,然后我执行了,udevadm control --reload-rules && udevadm trigger并且udevadm monitor还引发了错误,mce-inect但脚本没有执行。 # cat /etc/udev/rules.d/98-edac.rules ACTION=="change", ATTR{ce_count}, KERNEL=="mc0", RUN+="...

Admin

机器检查异常 (MCE) 如何工作?
mcelog

机器检查异常 (MCE) 如何工作?

我想了解 CPU 如何执行这台机器检查以及它如何检测是否有任何设备出现故障? 设备是否发送任何机器检查异常 (MCE)MCE 守护进程捕获并报告哪些事件? 这在内部是如何运作的? ...

Admin

在 AMD 处理器上运行“mcelog”
mcelog

在 AMD 处理器上运行“mcelog”

当我运行mcelog(版本 154)时,我得到以下输出。 mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead. CPU is unsupported 对我来说,这感觉像是一个类别错误,因为它mcelog是一个应用程序,也是edac_mce_amd一个内核模块。 而且,我做已加载此模块。lsmod返回edac_mce_amd 28672 0。 那么这个错误...

Admin

Mcelog 不起作用 - openSUSE
mcelog

Mcelog 不起作用 - openSUSE

我正在尝试在 openSUSE 中使用 mcelog。问题是,当它安装时,命令sudo mcelog --client什么也不做,没有/var/log/mcelog,systemctl status mcelog我得到: ● mcelog.service - Machine Check Exception Logging Daemon Loaded: loaded (/usr/lib/systemd/system/mcelog.service; enabled; vendor preset: enabled) Active: active (r...

Admin

了解机器检查异常 (MCE)
mcelog

了解机器检查异常 (MCE)

尽管尝试调试运行 Ubuntu 16.04 的新笔记本电脑(KabyLake 架构)的频繁死机问题我偶然发现了这些条目kern.log: kernel: [ 0.041634] mce: [Hardware Error]: Machine check events logged 从那时起我已经安装了mcelog但不知道如何处理日志。内容为/var/log/mcelog: mcelog: Family 6 Model 8e CPU: only decoding architectural errors Hardware event. This i...

Admin

在最新版本的 Debian 上使用 mcelog 的正确方法
mcelog

在最新版本的 Debian 上使用 mcelog 的正确方法

我找到了一些文档,但看起来有点过时: http://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html 我看到我可以指定一个设备作为输入,但文档没有提及任何具体内容。如果(例如)我想检测是否存在网络摄像头问题,我应该如何进行? 另外,在启动时使用 systemd 单元运行 mcelog 是个好主意吗?如果是,我应该使用哪些选项? ...

Admin

Fedora 21 上的紧急模式 - mcelog
mcelog

Fedora 21 上的紧急模式 - mcelog

我的 Fedora 21 系统直接启动进入紧急模式。有错误信息:unable to init device /dev/mcelog (rc -5) 它说尝试:systemctl default启动到默认模式;这有效。然后机器就很好地重新启动了。下次重新启动时,情况又一样。 也许有必要知道我也有输入/输出错误。如果我在紧急模式下输入 ^D,启动会继续顺利进行,但yum update由于输入/输出错误而无法启动。 我使用的是 Fedora 3.17.7-300.fc21.x86_64) 21. 错误消息还显示: type journalctl -xb;这...

Admin