我知道一些常见的模式,这些模式似乎在项目生命周期的某个阶段困扰着几乎每个项目:
- 无法承受停电
- 第三方组件锁定升级
- 非统一环境
- 缺乏监控和警报
- 缺少冗余
- 缺乏能力
- 变革管理不力
- 准入政策过于宽松或过于严格
- 组织变革不利地模糊了基础设施所有权
我希望有一本书或一个网站能够很好地概括这些反模式。我几乎可以肯定,许多组织都在通过反复试验的方法进行学习。如果没有,那就开始吧。
答案1
将可自动化的任务留待自动化,直到手动执行它们会占用太多的时间,导致它们无法自动化,因为手动执行任务会耗费所有的时间。
相反,过早自动化。完全没有必要花费 3N 个小时来自动化一次性任务,而手动需要 N 个小时才能完成(即使自动化比手动完成更有趣)。
答案2
A. 不测试恢复 - 可以验证备份并且没有问题,但是如何恢复?
这需要多长时间?需要做些什么?你必须知道在紧张的情况下该怎么做……
B. 没有配置管理,没有统一性 - 只是这里和那里有变化,我想我已经在这里调整了一些......
如果没有记录所有问题,而且商店中没有相同的配置,谁知道如何复制一台运行良好的服务器?如果您成功恢复了数据,但无法恢复配置和应用程序,该怎么办?
C. 没有监控 - 不知道盒子在做什么以及怎么样运行
这是双重的:a)您必须监控警报,以便在耗尽某些资源或出现奇怪行为之前及时做出反应;b)您必须监控长期趋势以管理容量(磁盘、CPU、RAM、网络......)。
D. 你的 cfg 没有冗余 - 当 XX 死掉时会发生什么
这意味着提前规划您对系统管理员的要求。
对我来说这些是最重要的。
答案3
最致命的模式是系统管理部门(或整个 IT 部门)成为公司的被动参与者。也就是说,他们被视为自助服务,每个人都带着已经形成的想法来做事,只考虑用户的需求,而不考虑整个 IT 生态系统的需求。
第二种最致命的模式是系统管理部门变成了一群按钮推动者,即所有软件/工具都由第三方购买或开发和安装,系统管理员接受官方培训和手册,然后只遵循操作手册,并将手册中未明确说明的所有内容上报给供应商。这种情况对(某些,如果不是大多数)系统管理员来说可能非常舒服,但这是一个即将发生的灾难,因为没有人真正知道整个系统是如何工作的,这将使它陷入困境(想想组件之间的微妙互动和供应商之间的指责游戏)。
答案4
不监控 AD 帐户的使用模式,例如上次登录时间 > 30 天
(出于审计原因我们必须这样做,但结果却令人震惊)