2011 年中 Mac Mini Server 不断从 RAID 中掉落磁盘,不知道该怎么办

2011 年中 Mac Mini Server 不断从 RAID 中掉落磁盘,不知道该怎么办

我兼职担任系统管理员的小公司使用 2011 年中期的 Mac Mini Server(运行 10.7 Lion)作为文件服务器和 FileMaker 数据库主机。它的 2 个 750GB 硬盘一起组成 RAID 1,Time Machine 通过 USB 备份到 2 个 1TB 磁盘组成的 RAID 1 阵列。

我大约在一年半前设置了它,直到几个月前才出现问题。我打开磁盘实用程序发现 RAID 已降级,并且仅在一个磁盘上运行。我出去买了另一个 750gb 硬盘,安装它,然后重建阵列。

一周内一切都很好 - 然后,阵列又降级了。我重建了阵列,直到上周它又恢复正常 - 然后阵列又降级了。它在同一个设备上不断降级 - 磁盘 1 一直很好,但磁盘 2 不断降级,无论里面有什么物理硬盘。我不认为这是硬件问题。

我该怎么办?我会重新安装 OSX,但我之前从未从 Time Machine 恢复过备份,而且我不确定会发生什么——如果出现问题,我将不得不重新配置很多东西,包括大约 10 个用户帐户和网络共享等(更不用说 FileMaker 配置了)。这对我来说只是一件小事,我真的不想因为出了问题而失去一切,从而浪费整个周五晚上到周一早上不间断的周末时间。

答案1

您是否读过任何可能提示问题所在日志文件?我绝对不会排除硬件问题 - 不仅磁盘可能损坏,而且如果电缆甚至主板上的连接因某种原因不符合规格,它们也可能是罪魁祸首。但是,修复这些问题可能会很麻烦,特别是如果错误只是偶尔发生 - 许多公司,包括苹果(根据我的经验),在经过几秒钟的测试后会忽略他们无法发现的错误。

答案2

您将需要通过保存系统日志、观察文件系统错误和挑战您的假设来非常系统地隔离故障。

为什么要排除磁盘 1 - 如果将数据写入两个驱动器时出现错误 - 系统必须选择一个,并且可能没有充分的理由选择驱动器 2 来生存,或者算法基于一些愚蠢的东西,例如检测到错误的天/周/秒是偶数还是奇数,并且记录的故障太少而无法注意到这种模式。

从问题的表述来看,您混淆了两个问题:缺乏经过测试的重建策略和如何隔离 RAID 问题。尽量坦诚地告诉自己和雇主风险,让他们根据预算做出业务决策,决定用哪个问题来解决。

至于这里的主要问题 - 您也可以编写一个简单的检查脚本diskutil list,让它在检测到下一个 RAID 问题时发送警报/寻呼机/捕获日志。如果您启用了 RAID 软件 AutoRebuild,我还会禁用它,以防万一问题是物理问题,有人摇晃服务器,系统在电缆重新连接时选择错误的主轴进行重新镜像。

相关内容