系统管理员故障排除“消防演习”列表

系统管理员故障排除“消防演习”列表

最困难的事情之一是培训系统管理员以一致的方式解决问题(思考),尤其是在压力之下、紧急铃声响起等情况下。

对于某些培训课程,我想提出一系列“消防演习”,并附上一些简单但合理的步骤,以缩小问题范围。例如:

网站关闭

  1. 缩小范围 - 缩小至内部网络、外部网络还是两者?从一个位置还是全球范围?
  2. DNS——它能解析吗?
  3. 端口 - 是否开放?是否响应?(使用 Telnet)
  4. 主机头-正确吗?
  5. Web 服务器 - 事件查看器中出现错误?

如果您能添加一项​​“练习”,那将非常有帮助。我们也欢迎其他训练系统管理员思维的方法。

答案1

系统管理员(这个词是我编的)有点像“全科医学”。你必须精通操作系统、硬件、网络、安全,有时还要精通开发(你至少需要了解你使用的语言)。

培训系统管理员的一个好方法是生成故障修复会话。我曾经这样做过,以测试新求职者:他们必须从头开始安装服务器(这样您就可以检查他们对安装/分区的掌握程度),配置服务器和服务,进行一些基本的强化。之后,我会去那里把它弄乱。对文件进行微小的更改hosts,损坏或不正确passwd,或者shadow随便什么,看看候选人是否能及时以合乎逻辑的方式解决问题。

我同意你的练习想法,但我认为它们可能应该更深入一点。比如,如果你在网站关闭场景,接下来要去哪里。

我建议按照你建议的方式进行演练:

使用代理/nat 的用户无法再浏览 www

  1. 检查是否只有一人或多人
  2. 检查与代理的连接(ping、打开端口等)
  3. 检查代理机器是否响应(加载问题等)
  4. 检查日志
  5. 检查代理机器上的进程/磁盘(进程太多,磁盘已满)
  6. 检查代理进程/过滤规则/nat 规则

但正如我所说的,在第 6 步之后,您基本上要处理的是一个非标准问题,这时系统管理员的技能就会大放异彩。

答案2

我从未管理过系统管理员,但我就是其中之一,而且我不得不多次处理这种影响数百台服务器、每分钟损失数千美元的“这不是演习”的情况。根据我的经验,没有什么可以取代对整个流程图(可以这么说)的深入和直观(即来自真正的理解和经验)的了解,包括从浏览器到 Web 服务器再返回的过程,以及从请求进入到响应发出时在特定 Web 应用程序中具体发生的过程。

如果您发现您的系统管理员无法为您提供整个流程,通常从浏览器到服务器再返回,经过培训后,我认为他或她不值得继续担任系统管理员职务。

如果我要进行这次“消防演习”,我可能会让它保持自由形式,设定一个时间限制,并让系统管理员写下他/她的思考过程以及他/她将从上到下检查的内容。你不能指望那里完美无缺,但这将是一个很好的开始,可以发现直觉知识中的差距。

此外,不要让系统管理员把自己局限在某个框架内。例如,如果说“那是数据库;DBA 应该排除数据库故障,而我排除其他故障”,系统管理员就无法直观地了解应用程序从开始到结束的流程,因此无法完全理解它。至少,系统管理员应该能够排除所有/大多数其他可能性,并且当他/她的知识耗尽时,确切地知道该向谁求助。(知道何时以及向谁求助本身就是一项不可或缺的技能。)

相关内容