你们这些处理服务器故障的人使用什么软件或系统来提醒你们进行例行维护?你们如何列出清单并记录你们应该检查的各种项目?你们有内部流程文件吗?你们每周都会发送 cron 邮件提醒你们检查系统日志吗?
另外,您是否在一个团队中进行系统维护?如果是,您如何协调谁做什么维护?
如果您使用错误/问题跟踪系统来输入任务,您是否有一个 cron 作业来输入重复任务?
答案1
我目前正在使用请求跟踪器(http://www.bestpractical.com/rt)
所有维护事件都会在“系统”队列中获得一个关联的票据。遇到的问题、谁在何时做了哪些工作等信息都会被记录到票据中,同时还需要获得必要的批准。
目前,我们的重复任务(每季度修补等)都是手动创建的,但它们可以很容易地实现自动化(cron job + 电子邮件)。
由于我们的管理组中只有 2 个人,因此协调谁做什么工作对我们来说相对容易,但随着规模的扩大,我们的计划是创建维护事件的主票,并使用分配给负责方的子票来委派工作。
日常事务(日志检查等)是另一回事:我已将所有这些都外包给自动化流程:
答案2
正确实施自动化可以完全消除对任务和检查清单的需求。如果您有可以更有效更高效地完成工作的计算机,为什么还要手动检查呢?
任何需要定期检查的内容都由监控系统检查。只要可行,常规任务就会自动执行,并且会发送提醒来提醒那些需要手动完成的任务。文档是另一回事,但如果做得好,您的计算机大多可以创建自己的文档。
停止寻找更好的手动方式,开始寻找更好的自动化方式来完成任何工作。计算机是为我们工作的,而不是我们为它们工作的。
答案3
答案4
监控系统可以帮助解决以下问题:
我们将每个月的维护记录在一个带有复选框的 Word 文档文件中。每个月,我们将报告保存到 NAS 上的文件夹中。我们会监控文件夹的最小文件使用期限。如果最小文件使用期限超过 40 天,我们就会收到警报。
我们日常维护的一部分是每月重启一次选定的服务器和设备。我们在监控软件上使用“系统正常运行时间”传感器 (SNMP/WMI),如果正常运行时间超过 40 天,我们就会收到警报。
对于备份,我们会监控 NAS 上每个服务器备份文件夹中文件的最小使用期限。如果文件最小使用期限超过 10 天,我们会收到警报。