我不知道这是否需要立即采取行动。W2012R2 服务器配备两个 500GB SSD 和一个相同的 Hot Global Spare。RAID 是 Megaraid。RAID 实用程序的屏幕截图附在下面。这是小镇上的一家企业,我们很难找到硬件专业人士。我是一名软件开发人员,所以,好吧,我就是我们的全部。
该配置有一个单独的 1TB 驱动器,用于“临时”存储,不需要镜像或备份。然后是三个三星 500GB SSD,两个镜像,一个配置为全局热备用。
我们开始在下面显示的日志中看到似乎是磁盘错误的内容。我的目标是确定哪个驱动器出现故障,并将其替换为最初为这种情况安装的热备用驱动器。
这些驱动器已全天候运行约 3.5 年,没有发生任何事故。
所以,我的问题是:
鉴于这是任何驱动器问题的第一个证据,并且软件指示状态为“最佳”,我是否需要立即更换?这是 SSD,我是否预计它会像旋转驱动器一样发生故障,即情况迅速恶化?或者作为 SSD,最终故障是否还很遥远?
鉴于我现在需要更换,我不知道如何以最直接的方式使用此软件来处理这个问题。直观地讲,我应该能够确定哪个驱动器出现故障,但消息似乎没有传达任何此类信息。然后,将热备用驱动器添加到阵列,并移除出现故障的驱动器。
3(a). 如何确定现有驱动器中哪个是问题驱动器?
3(b). 如何从阵列中移除故障驱动器并将其替换为热备用驱动器以进行重建?
3(c)。 所有这些操作都可以从 Windows 实用程序中完成吗?还是必须从启动 RAID 设置屏幕中完成?此实用程序似乎支持这些操作。
我将非常感谢您对这个问题的任何意见。我试图在数据丢失或停机之前解决这个问题,但我发现几年前最初启动阵列比更换可能出现故障的驱动器要简单得多。
提前致谢。
答案1
SMART 详细信息对损坏的扇区和读取错误有何说明?剩余使用寿命的百分比是多少?通常,如果驱动器仍显示为最佳,则可以安全地继续使用它们(我甚至仍在每天使用两年前显示为“不良状况”的驱动器,没有任何问题,尽管我不建议将其用于重要数据,当然也不建议在商业环境中使用),尽管这取决于驱动器。
由于您有一个热备用驱动器(也就是说,如果它真的设置为热备用!),它将自动替换故障驱动器(这就是为什么它被称为热的备份(备用)在需要时立即备份。通常,您不需要手动干预。但是请确保您的备份没有问题:最近、足够长的历史记录并且已验证没有损坏。
其他一些想法:
您有多少预算?如果您有预算,请购买额外的硬盘以防万一。确保它是同一型号以获得最佳可靠性。如果有,请检查当前出现错误的硬盘的保修,并将其更换。如果它是一个不错的 SSD 品牌和型号,您可能至少有 5 年的保修期(除非超过最大 TBW)。如果预算充足,请购买多个。
正常运行时间有多重要?如果完全不能接受停机时间,您应该投资高可用性存储,这意味着在当前系统发生故障时,需要备用存储系统。云备份存储是一种选择,但您需要良好的互联网连接。另一个选择是额外的 NAS。如果预算紧张,二手系统也是一个不错的选择,可以作为减少停机时间的备用计划。
关于硬件技术支持,也有远程选项。不要自己太快尝试,因为你可能会把事情搞砸,导致公司停工。
我对 Megaraid 不太熟悉,但你的 raid 控制器的软件应该足以更换故障的驱动器或修改你的 raid 设置。