私有云上的专用服务器,由四个磁盘组成。
其中一个磁盘包含操作系统 (OS)。如果磁盘发生故障,服务器将无法启动,我们无法以简单的方式从其他磁盘提取数据。即使磁盘以只读方式安装,我们仍然必须重新安装操作系统,这需要关闭服务器。
如果您能推荐一些资源或书籍来减少这些类型的错误,我将不胜感激。
此外,我想知道如何管理这些“脆弱”的专用服务器的正常运行时间。
答案1
您的问题有些模糊,基于错误的设置并且似乎是假设的。
我们通过不使用单个磁盘来安装操作系统来预防这个问题
如果问题确实发生(或者操作系统位于 RAID 上并且 RAID 设备发生故障/磁盘控制器发生故障),那么大多数人的下一步将是使用远程控制台设施(IPMI、iDRAC、iLO)来映射虚拟 USB/重新配置存储/恢复或重新安装。
答案2
通常的解决方案是首先避免这种情况:如果服务正常运行时间如此重要,那么它不应该依赖于一台机器的正常运行。
如果失败了,您可以将机器迁移到备用机器,然后关闭发生故障的机器,或者如果这确实不可能,那么有几种方法可以加快交换速度(例如,在将新驱动器放入服务器之前在其上安装操作系统等)
答案3
如果您要使用“传统”通用操作系统,请使用 RAID。“有用的”存储性能并不依赖于此:操作系统的关键部分加载到 RAM 中并从中运行,大多数时候根本不访问磁盘。因此,“出于性能原因不使用 RAID”的想法完全没有根据,您的假设毫无意义。
有一个基于Linux的专用存储操作系统,雇员退休金计划。它旨在安装到 USB 闪存驱动器中并从中启动。它还依赖于操作系统将简单地从内存中运行的事实,您甚至可以在启动后移除闪存棒。配置以这样的方式管理,以便您可以快速准备另一个 USB 棒并推送配置并再次启动到“相同”的系统。