我的管理层要求在走廊内显示监控屏幕。他们想到了销售人员在试图销售这种永远不会出故障(永远不会,保证)的出色设备时展示的那些精美的屏幕截图。或者我们在访问 Nagio 或 Cacti 网站时看到的那种东西(我展示了一些,他们同意了)。
我的管理层几乎对计算人员的工作一无所知。他们希望对网络、服务器等有一些专业的感觉。而且他们自己可能也被视为专业人士。
我们有 :
- 3 台服务器(1 台文件服务器,2 台应用程序服务器)
- 1 个备份服务器
- 1 个 LAN,带 3 个管理型交换机
- 2条 ADSL 线路
- 1 个 VPN 连接 7 个小型远程站点
- 1 Oracle 数据库
- 服务器上运行 2 个应用程序
- 还有很多小事情
我们已经在使用 Nagios。他们对我们简单的视图不感兴趣,说一切都很好。我希望有一些更好的想法可以呈现给他们,这样他们就可以告诉我他们想要这个或那个。
我想想 :
- 显示磁盘使用情况的饼图(包含部门名称)
- 一个图表阿拉Cacti 显示文件服务器上的磁盘 I/O
- 一张显示交换机网络吞吐量的图表
- 一个显示 Oracle 吞吐量的图表,或者其他相关内容
- VPN 的天气图
还有更好的想法吗?
答案1
有趣的问题。我以前也曾想出过类似的仪表板,但除了技术管理之外,从未为其他任何事情做过。您正在寻找的那种显示...可能需要自定义代码来显示您正在使用的任何监控系统的信息。一些系统(我现在想到的是 Zenoss)具有足够的可定制性,也许可以在内部构建一些东西,但为了真正完善,您将重新呈现您已经收集的数据。
这些高层管理人员正在寻找具有深入挖掘可能性的全局视图。您显示的项目应该是最重要的关键项目。在不了解您的应用程序的情况下,我可能会将以下内容放在仪表板上:
- 互联网连接的网络吞吐量(图表或拨号)
- 显示 Oracle 数据库加载情况的图表。我知道这是一件很难发现的事情,但我发现一些代理并显示它。
- 某种类型的整体磁盘空间显示。如果变化足够频繁,则显示图表;如果变化不频繁,则显示简单的温度计。
- 如果他们对此感到担心,那么他们关心的每个组织单位的图表可能会更难获得。
- 如果您使用的是共享存储,则可以使用图表来显示磁盘阵列上未分配的空间随时间的变化情况。这些是大预算项目,因此值得跟踪。
- 应用程序级状态:应用程序是否启动、在降级但可以正常运行的状态下运行,还是关闭?
- 应用服务器加载。
我实际上会避开 VPN 热图,除非他们真的想要。它对于漂亮的信息密度很有用,这本身就可以是一个目标,但我认为它无法向他们的级别传达有意义的信息。
同样,交换机吞吐量也是如此,除非你真正担心的是背板带宽。如果他们想要漂亮的信息,那就去做吧。但如果他们想要有用如果显示屏上还有剩余空间,我才会添加它。
出于政治原因(备份在 I/O 中确实非常昂贵,天哪,我们难道不需要更多的小部件来实现这一点)或相当高的密度,磁盘 I/O 可能是一个好主意,但同样不是我会向高层管理人员提出的东西。
答案2
有趣的问题(抱歉我来晚了,但这就是 ServerFault 和互联网的乐趣所在 - 现在就在这里留给后人吧。)
我认为正确的答案是向管理层展示“展示”和“去”的结合。即使他们不懂技术,在仪表板上展示的内容背后有一些实质和逻辑也会给人留下良好的印象。您可以获取数据并以任何视觉上吸引人的方式(图表、图形等)呈现它。
我刚刚写了一篇关于监控主题的非特定供应商的文章,名为系统监控的禅与艺术. 了解一些细节什么进行监控,无论系统/应用程序如何。
简而言之,思考什么是有用的(非技术管理人员会理解这一点)的方法是将系统分解为多个层,并为每个层提出一两个指标——一些关键的应用程序指标、进程统计数据、服务器统计数据、网络统计数据等等。哪些统计数据相关取决于您的应用程序正在做什么(它们是 Web 服务器吗?网络占用大量资源吗?磁盘占用大量资源吗?)。
不仅要考虑监控“坏事”,还要考虑“好事的缺失”——谷歌有句关于系统监控的古老传说,说通过监控“AdWords $/秒”,你可以很好地了解整个堆栈。因此,弄清楚你的版本是什么,并将其包含在你的仪表板中。
希望这对未来遇到此答案的人来说,能有所启发。