如何验证服务器是否正常工作?

如何验证服务器是否正常工作?

我想知道在配置更改或补丁安装后如何验证服务器是否正常工作?我发现很难检查服务器上运行的所有应用程序是否不受您所做的更改的影响。

您知道任何检查此类事情的“自动化”方法吗?

答案1

这就是系统监控的用途。监控系统会检查服务器上运行的所有网站和服务,然后如果出现任何问题(或系统自行出现问题),您就会知道。

答案2

好吧,在这一切之前,你真正需要做的是确定你对正常工作的评估是什么。你需要查看你的服务器,看看它在做什么,然后说,好的,为了使这台服务器正常工作,它需要成功地完成 XY 和 Z。

对于 Web 服务器来说,这可能是因为它需要正确地提供网页、接收电子邮件和允许 FTP 访问。如果是这样,那么您可以自动化它,您可以使用一些监控服务或脚本来检查这些服务,或者访问这些网页等。

答案3

你要找的是监控软件. 参见下面的内容 https://serverfault.com/questions/tagged/monitoring来得到一个想法。

大多数监控软件都会进行简单的开箱即用检查(端口打开/网站加载/FTP/SMTP 等服务响应)。如果您需要更详尽的检查(检查某个网页是否包含特定文本等),则必须自己编写它们(因为这是特定于应用程序的),但软件会为您提供帮助。

我个人推荐 ZenOSS,但还有很多可用的。

答案4

确实取决于服务器服务。

对于大多数人来说,你可以做以下事情(这是我脑海中想到的);

  1. 运行 Nagios 等监控软件来查找未运行的服务
  2. 在升级之前,请验证您是否对系统进行了良好的备份;备份应允许从整个服务器故障中恢复。
  3. 测试服务器处理的服务(如果它是网络服务器则打开一个网页,发送电子邮件以验证电子邮件是否正常工作......)
  4. 重启后检查系统日志中是否存在错误消息。

您无法真正全面地测试它或完全了解系统是否正常运行,因为错误修复可能会导致系统在某些情况下无法正常运行的极端情况。

您的意思是,您想验证更新后服务器上的服务是否恢复?在这种情况下,Nagios 之类的程序应该是完美的。您的意思是测试服务器是否正常运行?据我所知,这意味着要么编写自己的测试用例,要么手动测试,因为例如,您的 Web 服务器可能会启动,但它会发出错误消息,因为 Web 服务器为您的应用程序所依赖的数据库服务已停止运行。

编辑:好的,NAGIOS 可以在服务级别进行监控;我的意思是,服务可能“存在”,但某些东西受到影响,导致它发出错误,因此依赖自动化会给人一种虚假的安全感。我们遇到过这样的情况:我们的思科电话系统 (Callmanager) 似乎运行良好,但经过很长时间才发现某些语音邮件没有正确路由到邮件服务器;我们直到调查用户说他们被告知他们有语音邮件却从未收到时才知道……如果没有专门检查日志,服务的自动监控无法发现这一点,因为 Callmanager 上的所有内容都表明它可以正常工作)。

如果您有特定需求或特定情况,您可能需要稍微缩小范围,看看您在这里能找到什么结果。我在硬件中看到了类似的情况;我如何验证升级后的内存是否在计算机上正常工作?“启动并使用它。”这并不意味着您不会看到奇怪的崩溃,因为内存没有相当然而,安装不正确或存在微小的制造缺陷,且在特定温度范围内显现。

这是考虑虚拟化的另一个原因。您可以最大限度地减少升级的影响,使问题更容易恢复,并更轻松地将服务划分到各个服务器(Web 服务器处理 Web 任务等),以及监控磁盘使用情况和网络使用情况,以便更轻松地了解服务器的运行状况。如果有机会,就把它当作一件值得考虑的事情 :-)

相关内容