我即将在一家中小型律师事务所担任 IT 管理员。他们有几个分公司,总部约有 50 人。总共有 200 名用户。他们目前的 IT 系统设置如下:
- 8 台服务器(服务器 2003、2000 和运行共享驱动器的 Linux 机箱)
- 所有运行 XP 的计算机。
- Exchange 2003 无邮箱限制
- 所有计算机都在一个工作组中!没有域!
到目前为止,负责网络的“IT 人员”有点力不从心,所以他们解雇了他,并聘请了我(哇哦!)我正在列出需要改进的事项,其中一项是我要要求的一些新服务器硬件。我想购买 2 台服务器来替换 8 台旧服务器。
现在来看看我真正的问题!我想实现 Citrix Xen Server 并使用它来托管以下内容:
- 域控制器Domain Controller
- Exchange 服务器
- Citrix 农场
- SAN(从外观来看 1TB 应该可以)
- 还有一个备份设备
请不要认为我很懒,只是想让别人告诉我该买什么——我正在为此寻找选择。我只是想开一个开放的论坛,讨论人们认为最好的装备组合。
感谢大家的时间!
答案1
我要在这里重复 pcampbell 的观点,但我的语气会更加严肃和坚定。就把它当作“疲惫不堪、自以为见多识广的 30 岁出头的 IT 人员”的谈话吧。
走进去要求更换任何事物一开始就采用这种方法并不是一个可行的策略。你需要对现有的情况有很好的了解,然后才能尝试规格更换基础设施,更不用说实际实施它了。我冒昧地建议你对这个业务的需求并不像你想象的那么了解。你对“……迫不及待地想要拥有自己的网络”的评论说明了一切。无意冒犯,我曾多次担任跟进这些“大型重新架构”工作的承包商,通常我发现新的东西和之前的东西一样乱七八糟。
我会放弃任何小规模的(更不用说宏伟的)替换设想,并开始记录现在的所有东西。您需要了解硬件、软件和业务需求。您需要能够在制定改进计划的同时保持现状。
以下是我要解决的问题(感谢 pcampbell 帮助我入门……我应该在一小时前阅读《服务器故障》,而不是徒劳地试图入睡):
从上到下记录服务器计算机硬件、操作系统配置、网络基础设施硬件和协议配置、物理拓扑、逻辑拓扑。除了您之外,可能没有人会读到它,但您需要记录它,以便您自己理解它。
识别业务关键数据和系统,并规划步骤,确保尽快缓解高风险故障模式(例如没有冗余磁盘的服务器、未备份的数据等)。一旦您接手,如果事情开始出现故障,您就将面临风险。当您仍在尝试“熟悉情况”时,这是您最不希望发生的事情。
识别当前系统中的缺点、挑战和低效之处。除非你知道哪里出了问题,否则你无法知道需要改进什么。这意味着采访用户、查看过去的故障单历史、进行基准测试,以及挖掘找出当前基础设施中时间和金钱被浪费的地方。
在做这些事情的同时,保持现有系统正常运行。通过处理日常问题,你将学到很多关于那里发生的事情的知识。
与用户、高管以及任何需要打交道的第三方建立融洽的关系。从第一天起,你就需要树立值得信赖的顾问形象。你需要承担个人责任,并采取让每个人都清楚自己是为了公司的最大利益而工作的方式行事,而不是因为你喜欢玩弄技术。
讲一些实际的问题:
你可以说我脾气暴躁,但我要坚持你提出的“解决方案”,并建议你购买虚拟化技术,因为你认为硬件成本可以节省,但这种节省可能存在,也可能不存在,而且你不了解可能遇到的潜在性能障碍(尤其是基于数据库的应用程序)。我花了一年时间观察一位客户(他在紧急情况下意外来到我的公司)如何应对一对非常昂贵的戴尔 6950 服务器计算机和一个 iSCSI SAN 的性能问题。上一位“IT 人员”在“大规模重新架构”期间安装的 VMware ESX 集群可以正常工作,但其中一些应用程序性能不佳,他们发现,一些“传统”服务器计算机(带有非时尚、非令人兴奋的功能,如 RAID 和 DASD)的性能会更好,而且花费更少。然而,有人被骗了,现在他们不得不在一个不灵活的基础设施上投入大量成本。
以下是一些我想要关注的实用事项,按优先顺序排列...但只是按优先顺序排列:
我已经提到了备份——这应该是您第一天想到的第一个问题。但是,从更广阔的角度来看,灾难恢复计划是什么样的?它真的存在吗?制定一个计划,并进行测试。采访合作伙伴/所有者,了解他们对花钱处理各种灾难(服务器丢失、所有服务器丢失等)的承受程度。如果有什么地方让我不觉得花钱有愧疚感,那就是灾难避免和恢复。200 人因 IT 灾难而失业,在我看来,这听起来是一场可以避免的悲剧。
Active Directory 的冗余模型是什么样的?是否有多个 DC?如果没有,请尽快解决。您需要多个 DC... 就是这样。它们是便宜、便宜、便宜的保险,而且灾难发生后,拥有 AD 的副本可以更轻松地恢复。
为什么客户端计算机没有加入 AD 域?让它们加入。让客户端和服务器计算机运行 WSUS。
防病毒软件怎么样?反垃圾邮件软件怎么样?互联网过滤/监控软件怎么样?防火墙怎么样?VPN 怎么样?用户是否在 PC 上运行“管理员”级别的帐户?密码策略怎么样?对于企图入侵和未经授权的访问,您会发出什么样的通知?
业务线应用程序有哪些?它们工作得如何?它们的性能/效率/可用性可以改进吗?与这些应用程序和可用性相关的 SLA 是什么?供应商支持关系如何?您能推荐新的应用程序来代替它们吗?
分支机构的性能如何?如果性能不佳,如何改进?WAN 连接性如何?它是否具有成本效益,或者是否有更好的替代方案?分支机构中的服务器计算机会有所帮助还是会造成阻碍?
文件服务器上的空间使用情况如何?空间趋势如何?数据是否可访问且有条理?共享数据(组、权限等)的安全性如何?如何改进?
存储的电子邮件是什么样子的?对于电子邮件的归档/保留/销毁存在哪些问题?这里的规模趋势如何?如果电子邮件服务器发生故障,企业希望看到哪些 SLA 来进行灾难恢复?其次,您建议进行哪些替换/增强以满足这些 SLA(集群、添加服务器以分散负载等)?
是否有特定的服务器计算机或网络基础设施硬件导致效率或安全性问题?计划更换或重新利用它们。
有哪些仪器可以提供错误、中断等通知?为什么您没有收到磁盘故障、温度超标、服务不可用等电子邮件或短信通知?您应该主动管理中断,防止中断,或者至少在用户之前了解中断情况。
语音电话基础设施是什么样的?统一消息传递会成功吗?它与手持电脑/PDA/无线电话有何关联?
这个清单可以一直列下去。基础设施的更换和退役是这些项目的一部分,但在我看来,它本身并不是一个项目。没有哪家企业会为了购买 IT 而购买 IT。您需要根据企业将通过花费而实现的效率/生产力/收入的提高来构建推荐替换的案例。
答案2
找到客户想要和需要的东西。在这种情况下,您的客户可能是您的 CFO 和您的用户。CFO 希望尽可能地节省预算,因为他认为 IT 是一个成本中心,对吧?因此,您必须能够展示投资回报率,甚至更好的是,成本节约。想想许可证、电源、冷却、恢复时间、打印机重组等。
回答这个问题:“通过购买这种新设备并修改‘工作’基础设施,企业将获得什么好处?”
首先解决恢复和备份策略。安全网是最重要的,你只能把责任推给最后一个 IT 人员一段时间。一旦服务器硬盘崩溃,备份必须迅速。
用户可能会列出一份对“IT 人员”的抱怨清单。当您介绍自己时,请问以下问题:
- “您每天遇到什么问题,您认为我可以帮助您解决?”一旦用户发现您愿意倾听,他们就会告诉您可能没有想到的事情。这可以为您提供 6 个月的工作量。
- 他们正在进行 Exchange/Outlook 共享日历吗?
- “嘿,你知道吗,你可以每天早上打印并张贴会议室时间表,这样人们就知道白天会议室是否已被预订?”行政助理之类的人喜欢这些东西。
如果一家公司规模如此之大,却没有域名,那肯定会有问题。他们肯定有域名,因为他们有 Exchange。用户有 Exchange 帐户,但他们的机器却不在域中,这让人难以置信?
这听起来像是一个有趣的挑战,祝你好运,玩得开心!
答案3
确保您知道所有管理员密码。
答案4
由于没有域,您的第一项工作就是规划、部署和排除 Active Directory 故障 - 而不是需要大量新硬件的工作。
对于 200 名员工来说,将两台服务器放在一个篮子里似乎也有些过分了,我认为您需要考虑更多主机 - 至少三台虚拟机主机,然后是一些用于非虚拟化负载的裸机主机,例如至少一个 DC、一个高性能管理服务器和一些备用服务器。备份主机可能最好放置在异地或至少另一层楼,这取决于基础设施和备份设备以及异地存储策略。
如果您采用该计划,SAN 将至关重要,因此需要对其进行充分测试,并且您或承包商可以真正证明其能够处理并根据需求进行扩展。选择不当或实施不当的 SAN 可能是当今小型企业中最常见的性能问题之一。
在更换主服务器和存储之前,我还会更多地考虑“和备份设备”这一点。完成这项工作应该更重要 ^^
是的,没有好的答案,因为您能得到的反馈基本上就是工作首先要弄清楚的东西——祝你好运,记得玩得开心,永远保持友善,并非常小心地处理数据。在您使用技术“改进”任何事情之前,弄清楚业务惯例和工作流程通常更为重要 ^^