我正在寻找一种设备/软件/机制,通过它我只需按一下按钮,数据中心的所有服务器就会启动。但是,服务器需要按照特定顺序启动,并且当其中一台服务器发生故障时,需要通知系统管理员。
有任何想法吗?
答案1
一些 APC 的 PDU 具有可配置的电源延迟。APC 的话...
允许用户配置每个插座的电源打开或关闭顺序。这有助于避免启动时出现浪涌,浪涌可能导致电路过载和负载下降。排序还允许用户预先确定首先打开哪个设备,以便依赖于该设备的其他设备能够正常运行。
这听起来好像它可以满足您的需求。
答案2
最简单的情况:所有服务器都对 LAN 唤醒做出反应。按所需顺序唤醒它们,并使用 Nagios 或类似程序检查它们是否处于活动状态。
如果这不起作用,您将需要联网的 PDU,并且每个服务器至少有一个插座,即亚太经合组织。然后,您可以用按所需顺序打开插座来替换上面的 WOL 部分。这可能适用于 SNMP 或某些特定于供应商的程序。
答案3
在最新的服务器硬件上,您可以将系统设置为自动开机。此外,您还可以配置一组或随机的开机延迟(以避免电路过载)。这通常是 BIOS 设置,但可以帮助按特定顺序恢复电源。
除此之外,我总是推荐交换PDU(配电单元)用于共置设施部署。使用一个配电单元,您可以精细控制电源应用并监控/测量各个电源端口。这可以与您的监控系统相关联。
答案4
也许是消防部门。我不确定让这么多系统同时通电,让电网崩溃是不是个好主意……但我不是电工。
至少,我不知道我是否会相信自动化系统可以做这样的事情。