关于小型操作单点故障的问题

关于小型操作单点故障的问题
  1. 如果你负担不起或者不需要集群或备用服务器以备故障时使用,那么你似乎可以将一台功能强大的服务器提供的服务拆分到两台功能较弱的服务器上。因此如果服务器 A 发生故障,客户端可能无法访问电子邮件等内容;如果服务器 B 发生故障,客户端可能无法访问 ERP 系统

    虽然乍一看这似乎更可靠,但这不只是增加了硬件故障的几率吗?因此,任何一次故障都不会对生产力产生太大影响,但现在您要面对两倍的故障。

    当我说“不那么强大”时,我真正指的是组件规格较低,而不是质量较低。因此,一台机器的规格不符合可视化要求,而两台服务器的规格则分别符合较低的负载要求。

  2. 通常建议使用 SAN,以便您可以使用群集或迁移来保持服务正常运行。但是 SAN 本身呢?如果我要把钱花在发生故障的地方,那不会是基本服务器硬件,而是与存储有关。如果您没有某种冗余 SAN,那么这些冗余服务器不会给我很大的信心。就我个人而言,对于小型企业来说,投资具有冗余组件和本地驱动器的服务器更有意义。我可以看到大型企业的好处,因为 SAN 的价格和灵活性具有成本效益。但对于较小的商店,我看不到理由,至少在容错方面没有。

答案1

这一切都归结为风险管理。对您的 IT 系统进行适当的成本/风险分析将帮助您确定在哪里花钱以及您可以或必须承受哪些风险。一切都有成本……包括 HA 和停机时间。

我工作的地方很小,所以我理解这种困难,作为 IT 极客,我不希望任何地方出现单点故障,但在每个层面都这样做的成本不高,这不是一个现实的选择。但这里有几件事我可以在不花大笔预算的情况下做到。但这并不总是意味着消除单点故障。

网络边缘:我们有 2 个互联网连接,分别是 T1 和 Comcast Business。计划将防火墙移至两台运行 pfSense 的旧电脑上,使用 CARP 实现 HA。

网络:为网络核心配备几个托管交换机,并使用绑定将关键服务器拆分到两个交换机之间,可以防止交换机故障导致整个数据柜瘫痪。

服务器:所有服务器均配备RAID和冗余电源。

备份服务器:我有一个较旧的系统,它不如主文件服务器强大,但它在 raid5 中有几个大型 SATA 驱动器,每小时都会对主文件服务器进行快照。我为此设置了脚本,以便在它发生故障时切换为主要文件服务器。

异地备份服务器:与现场备份类似,我们每晚通过 VPN 隧道将备份到其中一个业主家中的服务器。

虚拟机:我有一对物理服务器,它们使用 Xen 在虚拟机内运行多项服务。它们在主文件服务器上的 NFS 共享上运行,如果需要,我可以在物理服务器之间进行实时迁移。

答案2

我认为这个问题有很多答案,但我同意在许多较小的商店中,多服务器解决方案是有效的,正如你所说,即使出现故障,至少有些系统还能继续运行。但这取决于故障的原因。

覆盖所有基础非常困难,但冗余电源、优质电力和良好的备份可以有所帮助。

我们已经将 Backup Exec System Recovery 用于一些关键系统。它不只是用于日常备份,而是一种恢复工具。如果可用,我们可以将其恢复到不同的硬件,并且我们还使用该软件将备份映像转换为虚拟机。如果服务器发生故障并且我们需要等待硬件修复,我们可以在不同的服务器或工作站上启动虚拟机并继续运行。它并不完美,但可以快速启动并运行。

答案3

关于 SAN:您使用的几乎所有东西都是冗余的。即使它是一个单一的机箱,里面也会有双电源、双连接器和双“磁头”,每个都与所有磁盘相连。即使是像戴尔销售的 MD3000 这样简单的产品也具有所有这些功能。SAN 被设计为您的机箱的核心,因此它们可以承受几乎任何随机硬件故障。

话虽如此,您说的有道理,冗余并不总是最好的选择。特别是如果它增加了复杂性。(而且确实会)更好的问题是......“公司能接受多少停机时间”。如果您的邮件服务器丢失一两天不是什么大问题,那么您可能不应该使用其中两个。但是,如果网络服务器中断每分钟都会让您损失真金白银,那么也许您应该花时间为它创建一个合适的集群。

答案4

我个人会选择多台服务器。我认为在这种情况下设备故障的可能性并不大。是的,您有更多可能出现故障的设备,但任何给定单元发生故障的几率应该是恒定的。

在非冗余/非 HA 配置中拥有多台服务器让我能够在发生故障时将部分工作转移到另一台服务器上。假设我的打印服务器出现故障。如果我可以在修复打印服务器时将几台打印机映射到文件服务器,对操作的影响就会减小。这才是真正重要的地方。我们经常谈论硬件冗余,但硬件只是确保操作连续性的工具。

相关内容