这应该是一个社区 wiki。我正在尝试列出我们应该定期执行的所有系统管理员任务,因为我认为我们公司在这方面做得还不够。这里的态度是,修复问题很不方便,但我们没有时间进行预防性维护或持续改进。
日常的:
- 交换夜间备份磁带/驱动器
- 检查防病毒更新是否已推送至所有系统
每周:
- 每周更换备份磁带/驱动器
- 清除所有系统的临时文件
- 对所有系统进行碎片整理
每月:
- 规划基础设施改进
- 将废旧设备交付/发送给电子回收商
- 重建或更换老化的工作站
- 测试从备份恢复
年度的:
- 重建或更换老化的服务器
- 更换 UPS 电池
答案1
如果您没有足够的时间进行预防性维护,而将大部分时间花在解决问题上,那么您的整个方法都需要修改。我不会告诉您每个时期应该做什么,而是给您一些想法,这样您就不必做这些事情了。
首先,您需要一个良好的监控系统和尽可能多的自动化功能。这两项功能应该可以节省很多时间,许多管理员在设置好系统后才意识到这一点。
您的监控系统应该为您做以下几件事:
- 当邮件或垃圾邮件过滤队列增长过大或突然增长时发出警报。
- 当驱动器空间过低、CPU 使用率过高等时提醒您。
- 记录磁盘利用率等信息,以便您可以看到随时间变化的趋势。
- 邮箱也是一样。
- 当防火墙记录到异常数量的点击时提醒您。
- 对于为外部世界服务的任何事物都是一样的,例如 DNS 和 Web 服务器。
- 如果 AV 更新太旧或者任何机器的 AV 软件已关闭或卸载,则会提醒您。
碎片整理甚至不应该列在您的任务清单上,因为它应该是一个自动化过程。按照您所需的间隔,让服务器在重新启动后运行磁盘检查和碎片整理。考虑将其与安装排队更新和补丁的系统结合起来(这些更新和补丁之前已在非生产机器上测试过)。
临时文件夹也可以通过自动化来清理。我创建了一个简单的应用程序,它在重启后触发,等待 10 分钟,然后清理所有临时位置。延迟是为了确保它不会删除重启后完成的安装或升级可能需要的文件(这是吃过苦头才学到的!)。
为了安全起见,您必须在合适的时间段手动执行的一件事是监控监控系统和自动化。我每天都会检查我的系统,但一年多来实际上没有遇到过任何问题。
当您的系统和自动化确实运行时,请确保您也有一个版本控制系统来放置它。当您发现最后的小调整破坏了其他东西但您不记得您到底做了什么时,这可能会非常烦人。
答案2
每天,我都会检查事件日志,可以手动检查,也可以通过某种脚本检查。
也许每月可以包括操作系统更新?
我还想说每年检查一下你的服务器的维护/保修情况。
答案3
每月:
- 审查基础设施的使用情况——这可以说是与“计划基础设施改进”部分混为一谈,但除非您知道(即“有硬数据”)哪些部分需要改进,否则您无法制定计划。
季刊:
- 测试基础设施故障转移 - 从应用层(网络服务器、电子邮件)到网络层(交换机、网络链路)到物理层(电源),如果您希望系统中存在冗余,则需要定期进行维护和测试。
答案4
在日常中,我可能会建议您订阅知名的补丁漏洞邮件列表并进行修补/更新。
这种情况可能每个月只会发生一次,但只需错过一条有关产品漏洞的消息就会造成很大的破坏。
如果您同意的话,我认为可以将其缩减为几个词以适合一行。
顺便说一句;这是一个很棒的清单,我期待看到它的完成。