我的部门维护 6 台运行 Windows Server 2003 和 Ubuntu Server 的服务器。
我们必须报告和跟踪我们的正常运行时间。我相信我们必须有 95% 的正常运行时间,但我们没有真正的方法来跟踪和报告这些数据。目前,我们只是使用文本文件和停机时间估计来手动执行此操作。
有哪些工具可以帮助完成此任务,或者您当前如何报告和跟踪服务器正常运行时间?
答案1
啊,我最喜欢的话题之一。
首先,您需要定义“正常运行时间”。
您的意思是服务器正在运行?(在这种情况下,只需在脚本中定期 ping 它)。
或者你的意思是应用程序正在运行?(定期连接到应用程序的“主页”,假设它是一个网络应用程序)
或者你的意思是应用程序正在提供它应该提供的业务服务?(在这种情况下,你需要运行某种合成交易。
我认为只有最后一条是正确的。其他的从技术上来说更容易做到,但与“这台服务器是否为企业提供价值”并没有太大关系。
如果您点击我添加的链接,您会看到,有许多公司销售提供此类解决方案的产品,或者您也可以自己开发。我曾使用过 NetIQ 的产品和 Microsoft MOM(这两家公司有着共同的历史),但我确信其他产品也同样有效。
当您选择工具时,请考虑如何解释计划的升级和维护期 - 一种简单的方法是将其记录为停机时间。
此外,95% 的要求并不高 - 相当于每天停机 72 分钟,或每周停机 8 小时以上。尝试让您的服务器在每周四的整个工作日内停止服务,我想您会发现您的 SLA 实际上比这要求更高一些...
答案2
我用http://mon.itor.us/(但目前已关闭)。
答案3
纳吉奥斯将为您提供停机报告,并在标准 ubuntu 存储库中提供。