如何调试和防止不稳定、不可靠的 IT 环境?

如何调试和防止不稳定、不可靠的 IT 环境?

我不是 IT 管理员,我是一名软件开发人员(Microsoft Stack),我正在尝试了解我们的某个客户的 IT 环境出了什么问题。

我们已经将客户端\服务器解决方案部署到一家中型企业。问题是,客户的 IT 环境(主要是各种类型的 Microsoft 服务器 - sql 服务器、SharePoint、lync、IIS 服务器等)似乎非常混乱和不稳定。似乎总是有一个系统或另一个系统出现故障,因为管理员在服务器上重新配置了某些东西,从而影响了我们在服务器上运行的软件。花了很多支持时间来继续查找,发现管理员更改了服务器上的一些设置,这些设置影响了我们的解决方案,而不是与我们的软件直接相关的任何事情。

不仅仅是我们的软件,似乎他们的所有系统都存在这个问题,而管理员似乎一直在救火。所有多米诺骨牌都倒下后不久,有人又改变了一些东西,再次将多米诺骨牌推倒……

我打算和他们的 IT 经理聊聊,但我对 IT 管理实践并不是很了解。

需要关注或质疑什么?在 IT 管理领域,是否有任何最佳实践或流程可以解决此问题?还有其他建议吗?

答案1

一般来说,IT 的可靠性由几种不同的实践提供,即:

  • 访问控制
  • 更换管理层
  • 配置管理
  • 版本控制
  • 秘诀

访问控制只是限制谁可以对关键/生产系统进行更改。变更管理通常通过访问控制和票务系统进行处理。请求必须得到上级批准后才能进行更改。配置管理通过使用外部工具严格控制系统的所有配置参数来确保系统的一致性。这通常通过组策略或其他工具(如 Puppet/Chef/等)实现。修订控制提供了配置的历史记录。

秘诀是一支知道自己在做什么的 IT 团队。世界上所有的流程和协议都无法弥补错误的判断和缺乏经验/才华横溢的工程师。

答案2

我认为最好的流程是“聘请有能力的人”。如果系统管理员团队总是忙于救火,没有努力从结构上改善他们的环境,我会认为他们不适合这份工作。

答案3

你得聘用可靠、可靠的员工。没有其他办法。

听起来他们有一个不称职的管理员。管理员可能只是工作过度,没有进行测试,并且一路上犯了错误。

你可以购买他们的管理员系统与网络管理实践。或者他们可以雇佣已经了解这些内容的人。

相关内容