定期系统健康检查期间要检查什么

定期系统健康检查期间要检查什么

我的任务是准备一份要进行的检查清单,作为我团队应该进行的每周系统健康检查的一部分。问题是,我和我的同事都不是专业的系统管理员,我们能想出的最好的办法也相当可笑。

该系统运行西门子 SIMATIC IT 和 LIMS,但我对操作系统和数据库服务器的一些通用检查/测试感兴趣。其他人将负责针对正在运行的应用程序的特定测试。

设置如下:

所有服务器都是虚拟的,运行在vSphere5环境中。

  • Web 服务器 – MS Windows Server 2003 R2
  • 2 台运行 SIMATIC IT 组件的服务器,一台用于 Historian,一台用于 Production Modeler,其他组件均为 MS Windows Server 2003 R2
  • 数据库服务器 – MS Windows Server 2003 R2 + MS SQL Server 2005
  • 数据库 + LIMS 服务器 – MS Windows Server 2008 R2 + Oracle Database 11g

我们很可能无法访问 vCenter 控制台,因此我们的想法是将远程桌面连接到这些服务器,进行一些建设性的检查/测试并准备报告。

正如我已经写过的,除了检查可用磁盘空间之外,我没有什么其他办法了。我还可以考虑使用 ChkDsk 检查文件系统的碎片级别和文件系统错误,在 Windows 事件查看器中查找一些重要的错误和警告,检查数据库中的索引碎片级别,并可能收集一些重要查询的响应时间和执行时间的统计数据。

我将不胜感激任何帮助。除了有关应检查哪些内容的信息之外,有关在 24/5 负载下系统上不该做什么的提示也将非常有帮助。例如,即使只是为了分析负载下的数据库服务器而运行碎片整理程序也可能是一个非常糟糕的主意,但我还不知道。

谢谢。

答案1

你被要求做错事。

您不应该登录生产系统并定期进行手动检查。
这必然会导致 (a) 错过检查期间发生的某些事情并导致您的业务中断,以及 (b) 最终在检查过程中搞砸并导致业务中断。

相反,你应该实施一个监视系统它会持续定期检查(每 5-10 分钟一次)并向您报告异常情况。请参阅标记以获取更多信息和要检查的内容的想法。

磁盘空间、交换利用率和 CPU 负载(RunQ 深度)是需要监控的典型内容。您可能还想在数据库服务器上执行(并计时/检查输出)标准测试查询(这些查询是您必须根据您的环境创建的)。

答案2

对于运行 Windows 操作系统的服务器,重要的检查可能是:

  • CPU 利用率。
  • RAM 利用率。
  • 可用硬盘空间。
  • Web 服务器 (IIS) 服务是否正在运行。

从网络角度来看:

  • 配置良好的DNS
  • 来自 DHCP 的 IP

这可能有用...

答案3

我会在列表中添加其他内容,因为这是一个 Web 服务器。

  • 设置计划任务来统计 IIS 日志中“200”、“500”、“401”和“503”响应的数量 - 您可以使用 LOGPARSER 来执行此操作。其思路是,脚本将统计每个响应的出现次数,然后将 500 和 503 响应的数量除以 200 响应的数量。这将为您提供 Web 服务器响应性能的总体健康状况,以失败 (500)/成功 (200) 的比率表示。

    • 500 - 错误 - 网络调用失败
    • 503 - 超时 - Web 代理从未收到上游 Web 服务器的响应
    • 401 - 未授权 - 网络呼叫未通过身份验证
    • 200 - 成功 - 网络调用已处理,未抛出任何错误

然后,脚本应该将结果(包括原始数据)上传到中央报告系统,以便您无需本地登录即可检查它。

如果您需要更深入地检查日志(例如,如果适用,哪个应用程序池运行不佳)您可以在LOGPARSER中使用许多其他东西来挖掘这些内容。

相关内容