在我所在的团队中,存在日志管理的问题,我们管理着一百多台异构系统的机器,几百个应用程序。
具有不同平台的异构系统:windows、linux、documentum、kofax、websphere、iis 等。所有系统都具有不同的日志格式和日志位置,一些在事件查看器中,大多数在单独的日志文件中,等等。
有时很难弄清楚每个系统安装在哪些机器上,有时机器没有可用空间,有时没有简单的方法可以找到日志的位置。
理想情况下,日志应该能够快速访问,以便我们能够立即协作解决故障,减少异常停机时间。我们还应该将日志保留一段时间,以便事后发现不明显的问题。而且必须保证有可用磁盘空间,生产环境中的系统不应该停止运行。
您是否知道可以帮助解决这种情况的解决方案和/或产品?
答案1
如果你可以通过 SNMP 提供你想要记录的数据,那么可以使用以下监控工具芝诺斯核或者Nagios/Cacti允许您从每个系统检索 SNMP 数据,记录并绘制图表,并在超出阈值时生成警报。SNMP 的优点在于它可以免费使用并且跨平台。Zenoss Core 也是免费的,并且易于设置。我们使用它来监控仅六台服务器,但它可以扩展到数百台。某些功能需要非免费企业版。
像这样的工具Splunk是另一种选择。它只是收集原始日志数据(您告诉服务器将其日志发送到您的 Splunk 服务器),对其进行索引并使其可搜索。您可以创建报告、仪表板和警报。它需要更多设置并且不是免费的,但功能强大,因为它非常自由,并允许您关联多台服务器之间的事件。查看他们的演示视频。
答案2
我非常确定 Nagios 正是您想要的。我们已经在网络上安装了它,它运行良好。
答案3
我们使用 NetApp 2020 的 NFS 挂载作为中央日志记录点 - 您仍然需要编写一些代码来查找问题,但至少它们都在较少的地方。
答案4
这里的现代(截至 2023 年)解决方案是“ELK 堆栈”(Elasticsearch、Logstash、Kibana)。Logstash 收集日志并将其发送到 Elasticsearch 作为您的 nosql 数据存储,其中 Kibana 作为搜索和可视化的前端。