如何排除挂起的 Linux 机器的故障

如何排除挂起的 Linux 机器的故障

有这样一个常见的面试问题:

如果一台机器挂断了(比如说 RHEL),你该如何排除故障?

我的回答是:

1) 我会使用(允许您连接到其控制台的服务器 BIOS 的名称是什么?)或进入服务器机房并将显示器和键盘连接到它并以 root 身份登录。

2)然后我会运行“top”来查看是否有某个进程的 CPU 使用率很高

3)然后我会检查内存(再次通过“top”?)和进程总数(“ps uawx”)以及系统限制(如何,“limit”会给我正确的数字)?

然后我就不知道了。也许运行“vm”?但它会告诉我什么?

请给招聘人员提供一些好的建议和令人印象深刻的句子。

答案1

你可以

对于非常严重的锁定,你还有魔法 SysRq从系统中挤出一些信息的关键。

其他可以查看的地方是 CMDB,查看服务器是否记录了任何先前的问题,以及是否有可接受的解决方法和/或计划的问题修复。您甚至可以询问同事。一份工作不仅仅需要技术能力。

相关内容