服务器离线。需要注意什么?

服务器离线。需要注意什么?

我正在通过 GoDaddy 使用一个新的虚拟服务器,今天早上我接到了上级的电话,通知我我们的网站已下线。确认后,我通过 GoDaddy 控制面板请求关闭电源,一两分钟内服务器就恢复了在线状态。我打了电话,报告了我们恢复正常的消息。

当然,几分钟后我们又断网了。我尝试通过 PuTTy 连接,它花了很长时间才提示我输入用户名,而且每个后续提示都需要很长时间才能出现。我使用的是 CentOS。所以我的问题是:

  1. 我如何确定原因?
  2. 我可以做哪些事情来防止将来再次发生此类情况?

一个有趣且可能相关的观察是,昨天我们的带宽消耗比上个月的最高数据高出约 20%。

答案1

也许服务器正遭受 slashdotted 或 DOS 攻击。

可能发生的情况是,Apache 占用了太多的 RAM,并且疯狂地进行交换。一旦开始交换,它就会陷入死亡漩涡(因为在开始交换后,每个新请求都需要更长的时间才能完成)。挽救它的唯一方法是在 Apache 陷入交换太深之前将其弹回。

要修复该问题,您需要调整 Apache 以不启动过多的线程/工作进程。请参阅文档要么这样,要么去一个更轻量级的 Web 服务器(比如Lighttpd或者Nginx)。

我建议也设置一个网络监视器。我个人使用纳吉奥斯穆宁监控我的所有服务器/服务。当资源不足或进程/服务器离线时,Nagios 会向我发出警报和警告。Munin 会记录历史信息(因此,如果您知道它在 20 分钟前发生故障,您可以看到在发生故障之前发生了什么变化)。如果您想有效地管理生产服务器(至少在我看来是这样),您需要这两种类型的监控系统。这样,您就不必担心除了服务之外的任何事情都依赖您的主机……

答案2

在我的网络服务器上,我们配置监控,它将向管理员发送一条短信监控&

追踪

答案3

要求主机打印一份服务器的 CPU 和 IO 活动,这样您就可以看到使用了多少服务器端资源。特别是当服务器宕机后您无法登录时,VM 端将有关于它可以看到的内容的漂亮图表:网络、磁盘 IO 和 CPU。

相关内容