我正在为我的公司制定程序,以应对主服务器离线或类似情况时会发生什么情况。我们现在有一个服务器正在运行,但如果它离线,我不确定我们预计的停机时间是多少,也不知道我们究竟如何让它恢复运行。我正在确定这里的 RAID 配置/设置:在 Linux 中显示硬盘设置
关于该服务器,我所知道的只是它是一个HP Proliant DL580
带有8x Intel(R) Xeon(TM) MP CPU 3.00GHz (32 bit)
和的服务器16 GB of RAM
。
有这么多处理器,1 个电源够用吗?目前有 2 个电源连接到机器,如果需要 2 个,那么即使 1 个发生故障,我也没有任何电源备份,但如果可能只需要 1 个,那么即使 1 个发生故障,我也应该没问题。
我在用着丛林磁盘备份服务器配置。理想情况下,我希望能够使用第二台服务器,只需将其插入数据中心即可。我们现在拥有的第二台服务器远不如我们实时运行的服务器强大,但它可以完成工作。
你们建议我在这里做什么?
答案1
你所做的只是灾难恢复规划的一个非常基本的方面。关于这方面的书籍有很多,但都没有完全回答这个问题。
基本上,问题归结为:停机会给您的业务带来什么损失?根据停机的可能性,您应该花多少钱来避免停机?您预计会出现哪些故障情况,以及如何预防这些故障?
解决灾难恢复的最佳方法与解决任何 IT 运营问题的方法相同:从上到下了解您的系统。如果您不了解任何部分的工作方式,请学习它。您可能需要构建虚拟机或新系统,并将旧系统的零碎部分拼凑在一起,直到它正常工作。
话虽如此,有各种各样的技术可以帮助您避免长期停机。SAN 启动、裸机恢复、虚拟化、热备件和冷备件等都有助于避免停机。其中一些可以而且应该一起使用,而另一些则不应该。在弄清楚哪种技术最物有所值之前,您需要弄清楚哪种技术最物有所值。您需要预算和策略。
答案2
PSU 冗余:首先,您有一台功能强大的服务器,并且想知道一个 PSU 是否足够,即使有 8 个核心。它应该足够,在服务器的背面,您将看到两个插头,它们都是另一个的冗余。理想情况下,您应该将它们分别插入不同的电源插座以实现真正的冗余。
RAID 配置:我认为您应该使用 RAID 1。两个驱动器同时发生故障的情况非常罕见。只需确保监控服务器是否有损坏的部件即可。永远不要只依赖一个驱动器,尤其是在生产中。
备份:因此,您可能希望更好地了解备份和冗余。在我们的案例中,备份是您可以移动的东西,并且不依赖于主服务器是否启动。如果我们想回滚到特定日期,我们就依赖它。既然您已经这样做了,这对您来说真的很有好处。
冗余是您想要实现的,以确保服务器的高正常运行时间。从集群到热备份,有很多方法可以实现冗余。这实际上取决于您的需求以及应用程序的部署方式。
如果我遗漏了任何内容而您正在寻找答案,请告诉我。
谢谢
答案3
首先,您需要确定停机时间窗口有多大,以及他们的期望是什么。窗口和他们的期望将决定使用哪些技术来减少停机时间。
其次,看看从头开始恢复第二个机器上的服务器需要多长时间。这是你的基准。
第三,弄清楚如何满足时间限制并减少恢复时间。此外,还要弄清楚他们愿意花多少钱。这是您协商正常运行时间与成本的地方。您可以疯狂地购买带有 SAN 的 vSphere,或者您可以每隔几个小时运行一些脚本并将数据发送到热备用。
第四,进行 DR 演习以确保一切正常。
服务器电源应为冗余且可热插拔。我会致电 HP 进行确认,并在致电后在维护时段进行测试。