诊断 Linux 服务器中内核崩溃的硬件问题

诊断 Linux 服务器中内核崩溃的硬件问题

我们的服务器最近偶尔会出现内核崩溃,我们认为这是硬件问题。您如何解决无法物理访问的硬件问题?是否有任何工具可以在操作系统内部诊断系统的不同部分,以找出导致所有这些崩溃的原因?

答案1

除非系统日志或供应商提供的测试工具(前面板显示器、戴尔诊断程序等)中显示任何内容,否则大多数诊断程序都需要物理访问系统。

我的建议是memtest86或者memtest86+在系统上运行:大多数恐慌/随机崩溃都是由坏的 RAM 引起的,这通常可以捕获它。

答案2

你将拥有真的如果无法访问硬件,就很难诊断硬件问题;如果在日志中或者从烟雾和噼啪声以及随后的闪烁的灯光中看不到问题,那么很多硬件故障排除就归结为切换部件,直到问题消失。

硬件的问题在于,当你使用软件来排除故障时,它只能告诉你问题本身,而不是可能存在的问题。例如,memtest86 发现肯定存在内存问题,那么肯定存在内存问题,但如果 memtest86 说存在不是内存问题,您实际上可能仍然有内存问题(我的系统测试正常,但只有在更换模块后才停止崩溃)。

这就像让你的大脑给自己做诊断一样。你不能相信结论。:-)

相关内容