是否存在行业智慧、管理和软件工具(最好是免费的)来记录和跟踪哪些用户依赖 IT 部门集中管理的哪些服务、资源、设置和定义?
我的想法是,一些故障和中断可以归因于用户没有准备/意识到他们所依赖的服务变化。
已经建立了对某些事物的跟踪,例如:用户帐户,但是没有建立其他事物的跟踪,例如每个位置的 IP 地址子网、环境变量、服务器 URL 地址、资源位置......
例如依赖关系,当用户编写依赖于这些事物的应用程序时,如果这些事物发生变化,应用程序可能会崩溃。用户可能必须依赖这些事物,并且无法在这些事物不可用的情况下建立应急措施。显然,如果可以实现应急和故障转移,那么这是一个考虑因素,但添加这些的资源可能有限,并且可能没有有利的故障转移选项。
是否存在业界认可的流程和工具来追踪这些事情,并让家属及时了解这些事情是否发生变化?
答案1
我认为,一般的“智慧”——正如你所说的那样——就是真正了解你的系统。这意味着以某种方式记录一切。这对我来说就是“数据库”,尽管我也见过它用电子表格(想成为会计师的人!)、维基百科甚至简单的文本文件来实现。你绝对必须从那里开始,因为没有这些知识就无法部署跟踪或监控系统。例如,如果你甚至不知道 IP 地址应该是什么,你如何报告更改的 IP 地址,或者报告已停止的服务,但你不知道它是什么或它在哪台机器上运行?
至于跟踪和报告,您需要确定如何监控所有需要监控的事物。我使用 Nagios 来处理大多数此类事物,尽管没有一个系统可以做所有事情。如果不对您的系统有更多了解,就不可能给出详细的建议。
答案2
正如 John 在他的回答中所说,答案是了解您自己的系统。有些程序和实用程序可以帮助审计和监控您的系统(例如 Splunk 或 Spiceworks),但据我所知,没有一个程序或实用程序会知道 Jane Doe 使用 CRM 系统导出数据以在 SSRS 系统中创建报告。为了获得这种“意识”,您和 IT 团队必须知道存在哪些系统、它们的用途、它们具有哪些依赖关系、哪些系统依赖于其他系统、哪些业务单位或部门使用哪些系统等。