在我的公司,我们提供的所有硬件安装都配有专用服务器(Windows Server 2008、2012)。
确保服务器保持健康(通过检查磁盘的 LED、UPS 电池等)通常是我们客户的工作的一部分。
问题是他们经常忘记做这件事,例如,最近我们发现一台服务器在过去 2 个月中有一个 raid 10,其中有 2 个磁盘发生故障(总共 6 个 + 一个热备用)。如果服务器宕机,对我们的客户来说将是一场灾难,无论发生什么情况,这都是我们的错。
为了防止这种情况,我们希望管理服务器的硬件,并在出现故障时向客户和我们发送消息,以便我们能够迅速采取适当的措施。
在服务器上,我们有一个运行的 C# 应用程序,我们的目标是检索应用程序中的不同硬件状态以正确处理它。
总而言之,我想收集我的应用程序中的以下警告、错误:
- RAID 故障
- 硬盘故障
- 网卡问题
- 磁盘空间越来越低
- 其他硬件
有没有现成的解决方案来获取这些信息? 一个可以将这些信息收集到事件查看器或日志中的应用程序也不错。
我们尝试了 :
- 戴尔开放管理
我们仍然需要尝试在我们的应用程序中获取信息。缺点是,它与制造商相关,无法收集所有信息(例如 -> UPS 电池)。
- 智能平台管理接口/网络管理接口
我们无法查看磁盘。我们被困在 RAID 控制器层面。我们在不同代服务器上的行为也有所不同。
答案1
结合使用 Dell OpenManage Server Administrator (DOMSA)、Dell OpenManage Essentials (DOME) 和 SNMP,您可以配置服务器以通过 SNMP 陷阱向您发送硬件警报。这需要在服务器上安装 DOMSA 和 SNMP,并配置它们以将 SNMP 警报发送到您将在您的位置运行的 DOME 实例。这还需要您允许来自客户的入站 SNMP 通过防火墙到达您。这不需要在客户端进行任何配置。您可以在发送服务器之前预先配置服务器上的 SNMP 陷阱目标。
这样您就可以进行硬件层监控。对于操作系统层监控,您需要使用某种基于代理的监控解决方案,该解决方案将允许您监控磁盘空间利用率等内容,并且能够生成和发送警报。我碰巧使用Pulseway为我的客户安装此软件。它价格低廉(每个系统每月大约 1.34 美元)。这可让您在操作系统层进行监控,并为您提供丰富的远程监控信息和管理功能。以下是 Pulseway 控制面板的片段,我可以使用它来远程访问和使用我的远程管理系统:
答案2
我使用 PRTG 来监控我们公司的所有设备。如果您的传感器数量不超过 100 个,该程序是免费的。它将监控您列出的所有内容。