服务器挂掉的原因?

服务器挂掉的原因?

我请求了一个 Amazon EC2 实例,但有时会挂起。服务器挂起的原因可能是什么?在挂起之前可以做些什么或检测什么?是否有任何好的开源监控工具可以检测到这种情况并采取预防措施。

系统管理员如何处理这个问题?

谢谢你巴拉

答案1

您的意思是它会在请求时挂起,而不是稍后挂起?

有两种情况。一种情况是 Amazon 的调用失败了 - 我见过一些统计数据,称大约 2% 的 Amazon API 请求“毫无理由地”失败了,你应该始终编写一种失败时重试的代码。

另一个原因是您在实例启动时做了一些巧妙的事情,导致实际的 Linux 操作系统在其启动周期中挂起。例如,添加了一个 init 脚本来插入一些动态 DNS 之类的东西,或者任何其他依赖于外部依赖项的东西,导致它崩溃。我会在启动过程的后期移动任何自定义内容,并可能获取一些远程系统日志,以查看操作系统级别是否真的出了问题。

然而,我倾向于把钱押在前者上。

答案2

根据 Ernest 的回答,您通常可以通过检查实例启动时的控制台输出来了解发生了什么。如果您通过 AWS 管理控制台启动实例,则可以以链接形式获取该信息,或者也可以使用ec2-获取控制台输出来自 EC2 命令行工具的命令。

相关内容