如何检测“NMI 看门狗:BUG:软锁定”是硬件问题还是软件问题?

如何检测“NMI 看门狗:BUG:软锁定”是硬件问题还是软件问题?

软锁定

dmesg我的笔记本电脑上的报告,已经有一段时间了,NMI watchdog: BUG: soft lockup 每次我尝试使用updatedbfirefox.报告内容的样本发布于https://github.com/zfsonlinux/zfs/issues/4536#issuecomment-280894134

相关问题

我还阅读/评论过 -https://github.com/zfsonlinux/zfs/issues/4536

问题

我如何检测它是否是硬件问题,或者如我所想,确认它是与内核/软件相关的问题?


细节

Linux发行版

Funtoo-Linux,滚动分布

内核

我(至少)在使用以下内核版本时观察到了“BUG”:

普夫

  • 4.11_p4-pf
  • 4.8_p8
  • 4.5_p4

CK

  • 4.12.7-ck

德比安

  • lts-4.9.30
  • 4.8.x
  • 4.7.8

配置

我使用自定义配置来编译内核。当没有“软锁定”问题或与“看门狗”相关的任何问题时,它基本上与我长时间使用的配置相同。

我可以复制粘贴或链接配置文件。然而,我发现还有两个重要的设置是“必需的”

CONFIG_KALLSYMS=y
CONFIG_PREEMPT_NONE=y

ZFS

我在使用 ZoL 版本时观察到“BUG”

  • 0.6.5.11
  • 0.6.5.10
  • 0.6.5.9
  • 0.6.5.8
  • 0.6.5.3

答案1

虽然这可能是硬件问题,但由于代码成熟度Linux 的 ZFS 代码,以及很多人在多个版本中抱怨您的同一消息,我倾向于说这是一个软件错误。

存在多个错误竞争条件在 ZFS 代码中,事实是对于生产系统来说它仍然不完全值得信赖。

如果您的笔记本电脑是游乐场/测试系统,则尝试 ZFS+ 是一个很好的 ZFS 测试,可以排除软件与硬件问题自由BSD,它拥有经过更多测试且稳定的代码库。

如果您过去也有 Linux+zfs 的已知稳定配置,根据您的附加评论,最好返回并测试它,以排除可能的问题。

至于尝试调试实际的内核级代码,您可以尝试sysdig但如果系统挂起,它可能会在喷出日志之前就死掉,这可能会导致问题的根源(或不会)。

相关内容