我正在想办法解决一家深受荒谬硬件问题困扰的小型企业。目前,这家企业运行在五六台台式机上;没有服务器基础设施。除此之外,我没有夸大其词,今年到目前为止,他们已经遇到了四次硬件故障,这让他们几乎陷入疯狂。
我已经与他们讨论了安装 Small Business Server 的想法(他们是一家微软商店),他们接受了这个想法。我还计划尝试使用 System Center Essentials 来密切关注事态发展。然后重点就变成了确保该服务器保持可用。
另外,我刚刚读完另一个高可用性线程。与该帖子中的人非常相似,我对 IT 还很陌生,有编程背景。
我想到了一些想法:
- 带热插拔功能的简单 raid-5编辑:和热备用
- 购买两台便宜的服务器,配置为运行一台具有热迁移功能的虚拟化服务器(我做了一些阅读,但遗憾的是我无法判断 SBS Standard 和 SCE 是否支持此功能)
- 故障转移群集?我从其他帖子中了解到这个术语,但之前从未接触过它。
在这方面有没有最佳实践?企业主愿意为此花点钱,因为他越来越担心停机,但我在这方面没有经验,无法指导我朝哪个方向发展。
我将感激您的智慧!
编辑:为了提供他们所遇到的问题的更多细节,这是一个难以解释的故障组合。
- 机箱上的开关无法启动系统:主板上有板载开关,这提供了一个权宜之计,但是更换机箱并不能解决问题。后来,更换主板也没有解决问题。
- 两台相同的机器的 raid-1 阵列均出现驱动器故障,并且两台机器的组装时间均不超过 5 个月。
- 启动失败问题:raid-1 中的一个系统根本无法启动。不幸的是,我没有记下原始错误消息,但在我的笔记中,Windows 修复和恢复中的“无法保存启动选项”导致我 此主题这证实了我的怀疑:这是一个与硬件相关的问题。
编辑:此外,这些机器运行在一系列家庭办公室中,因此家用级电气设备也发挥了作用。我想这可能是一个比我想象的更重要的因素。然而,这些机器都是在桌子上(实际上是台式机!)而不是在地板上运行的;我不认为这和灰尘有关。
答案1
首先,对于 5-6 台台式机来说,SCE 有点过头了。WSUS 可能是更好的选择,而且是免费的。
您没有过多说明到底是什么故障。是机器中的某个部件吗?这是一个尘土飞扬的环境吗?我的主要支持环境大约有 40 个用户,大约有 10 台服务器(不包括虚拟化服务器)。我们购买了戴尔机器(Optiplex),并且我们或许过去 5 年里,所有这些硬件都出现过 4 次故障。所以您在工作站上看到的情况并不正常。
他们是否有合适的服务器机房/位置(至少有冷却系统并且灰尘不多?)
带热插拔的 Raid-5 是此服务器的一种廉价方式,并且可提供一些针对硬盘故障的保护。我还会添加冗余电源(便宜)和 UPS。
- 服务器级硬件
- 袭击硬盘 (编辑后添加)拥有热备用可能有点过头了,因为大多数保修期内的驱动器都可以在一夜之间更换。例如,在 raid-5 中有 3 个驱动器,您可以丢失一个驱动器,直到新驱动器到达为止。但是,如果丢失 1 个以上的驱动器,无论你怎么看,您都会完蛋。
- 冗余电源
- 适当的保修(例如,使用戴尔服务器,我们可以在下一个工作日交付并保留您的硬盘,因为我们可以忍受任何服务器停机一天。)
- 备份解决方案
故障转移群集?对于如此小的环境,您开始进入一个既昂贵又复杂的领域。请记住,在如此小的环境中,虽然正常运行时间很重要,但同样重要的是要记住,您需要尽量保持简单。
至于工作站,请解决问题(您对此没有非常清楚)。也许您可以购买一台“额外的”工作站,上面有您的基本映像,它只是放在那里从 WSUS 获取所有更新,如果其中一个工作站死机(我们就是这么做的),您可以将其用作替换机器。我们还有大量零件可以更换最常见的死机零件(电源、内存、硬盘),直到保修零件到达。
备份。任何冗余都无法替代良好的备份。您在这里有很多选择。在如此小的环境中,您可以考虑许多(Mozy、Carbonite 等)在线解决方案,这些解决方案可以同时处理异地和自动化,成本合理。您还可以采用磁带解决方案并使用 Iron Mountain 等服务将磁带存储在异地。 无论你做什么,都不要把磁带带回家!特别是如果他们有有价值的信息(SS#等)
答案2
从我的经验来看,SBS 有自己的一系列问题。特别是如果你设置集群等。对于这么小的商店来说,维护工作量太大了。
设置一个合适的小型服务器,4 个磁盘,raid(5 | 10 | 6),pci-e raid 控制器,一个基本文件服务器,ups(感谢 tomtom)。
仅发给少数人的邮件可能最好由外部提供商来处理。
远离 SCE 和类似的过度情况,因为您必须拥有 VPN、Active Directory 和类似的东西。设置所有这些是一项艰巨的工作,而且可能不符合客户的最佳利益。
通过为您的小客户提供简单但高效且可靠的解决方案,您将使他们和您自己都感到满意。
教他们查看事件日志,也许给他们一个检查磁盘警告的简单脚本。如果他们愿意,定期拜访他们,并为他们检查日志。一次处理一个问题。
答案3
这主要不是硬件问题。现在就买一个 USV。一个在线的(即过滤电能的)。
除此之外,我没有夸大其词,今年到目前为止,他们已经发现了四次硬件故障
这要么很滑稽——非常罕见——要么基于例如电源波动或服务器处理不好的某些事情。这不是正常的,而且发生这种情况的几率“只是”极低。就像彩票中奖一样低。我见过类似的行为——但要么是基于糟糕的电源,要么是基于不稳定的电源,有尖峰,部分是家庭感应(看到服务器在你打开灯时死机,这是因为开关很差,你可以看到火花)。
- 不需要 SCE。WSUS 就足够了。
- SBS 并不真正支持您在正常运行时间方面的需求 - 但您可以尝试在虚拟化平台上运行它。它确实在 Hyper-V 中运行...我知道有人这样做是为了演示目的。
答案4
我不明白服务器应该解决什么问题。
如果所有四台机器都来自同一家供应商,而且您所在的位置没有任何异常(湿度/灰尘非常高、静电、闪电或电源非常不稳定),那么您需要更换硬件供应商。无论戴尔、惠普和 IBM 做了什么来惹恼用户,这些机器的供应商都更糟糕,至少从硬件的角度来看是这样。在沃尔玛购买最便宜的机器,可靠性会更高。
这可能并不完全是供应商的错 - 也许有人指定了特定的硬件和/或坚持使用一些规格非常低的设备 - 但他们仍然应该拒绝制造配置不良的机器,或者采取一些英勇的行动来更换有问题的机器。
我建议您从 Dell/HP/Lenovo 购买一些中等价位的 PC(或者打击当前供应商以支持他们所销售的产品),注册一些付费的 Dropbox 帐户(或 box.net 或 NetDocuments)来共享文件,并让您的 ISP 或 Google 处理邮件和网络服务。
[* 是的,“云”服务在理论上不如拥有自己的服务器安全 - 但如果它在很多家庭办公室中运行,如果这些家庭中的任何一个被盗,或者某人的家人在员工不在家或度假时使用工作机器从互联网上运行随机恶意软件,数据就会面临风险。停机的最大危险将来自消费级网络连接,而不是云提供商的停机。]
听起来,如果您想要可靠性,您需要更少的硬件和更简单的硬件,而不是更复杂和更昂贵的硬件/软件。