存储空间磁盘故障 - 卷脱机

存储空间磁盘故障 - 卷脱机

我们设置了一台廉价的物理服务器,该服务器有一堆 3TB 磁盘,用作将数据推送到磁带之前的备份暂存区。我们安装了 Windows Server 2012 R2 并设置了存储空间/池。我们使用 Veeam 备份到运行光纤通道的更快的服务器,然后使用脚本将超过 x 天的备份移动到我们的存储空间服务器。

我们最初遇到了一些失败,因为我们发现使用 Robocopy 通过 UNC 路径移动数据无法正常关闭 SMB 连接。我们通过在脚本中添加 net use 和 net use /delete(然后使用驱动器号作为 Robocopy 目标)解决了这个问题。在过去的一两周里,这种方法效果很好。

今天早上,脚本报告失败。经过调查,我发现一系列事件 ID 51 警告,然后是事件 ID 134(来自源 ReFS)。在我看来,这似乎是存储池中的物理磁盘发生故障。但是,在服务器管理器中查看,它显示虚拟磁盘/卷/不太确定如何称呼它为“脱机”;只需将其重新联机即可,并且存储池中没有发生故障的物理磁盘。还有两个热备用,这两个都没有被交换进去。

我很好奇这里发生了什么?还有为什么卷会脱机?我以为 ReFS 和存储池的全部意义在于在发生此类故障时提供可靠性?

编辑:添加以下所有相关日志。

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
  <Provider Name="disk" /> 
  <EventID Qualifiers="32772">51</EventID> 
  <Level>3</Level> 
  <Task>0</Task> 
  <Keywords>0x80000000000000</Keywords> 
  <TimeCreated SystemTime="2014-12-23T22:13:12.704827200Z" /> 
  <EventRecordID>23901</EventRecordID> 
  <Channel>System</Channel> 
  <Computer>****</Computer> 
  <Security /> 
  </System>
 <EventData>
  <Data>\Device\Harddisk25\DR25</Data> 
  <Binary>040080000100000000000000330004802D0100006B0400C000000000000000000000000000000000FC8F470200000000FFFFFFFF0100000058000030020000000020101280032040000080003C000000000020AB09E0FFFF783583D201E0FFFF0000000000000000507383D201E0FFFF30C99FC108E0FFFF6B0400C0000000008A00000000027C288D60000008000000000000000000000000000000000000000000000000000000</Binary> 
  </EventData>
  </Event>

在分页操作期间,在设备 \Device\Harddisk25\DR25 上检测到错误。

仅供参考 Disk25 是存储空间创建的虚拟磁盘,而不是物理磁盘之一

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
 <System>
  <Provider Name="ReFS" Guid="{036647D2-2FB0-4E32-8349-3F5C19C16E5E}" /> 
  <EventID>134</EventID> 
  <Version>0</Version> 
  <Level>2</Level> 
  <Task>0</Task> 
  <Opcode>0</Opcode> 
  <Keywords>0x8000000000000000</Keywords> 
  <TimeCreated SystemTime="2014-12-23T22:13:13.329846900Z" /> 
  <EventRecordID>23902</EventRecordID> 
  <Correlation /> 
  <Execution ProcessID="4" ThreadID="31267444" /> 
  <Channel>System</Channel> 
  <Computer>*****</Computer> 
  <Security UserID="S-1-5-18" /> 
  </System>
<EventData>
  <Data Name="VolumeIdLength">2</Data> 
  <Data Name="VolumeId">D:</Data> 
  <Data Name="FailureReason">0xc000000e</Data> 
  </EventData>
  </Event>

文件系统无法将元数据写入媒体备份卷 D:。写入失败,状态为“指定了不存在的设备”。ReFS 将使该卷脱机。它可能会自动再次安装。

 <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
 <System>
  <Provider Name="Microsoft-Windows-StorageSpaces-Driver" Guid="{595F7F52-C90A-4026-A125-8EB5E083F15E}" /> 
  <EventID>304</EventID> 
  <Version>0</Version> 
  <Level>3</Level> 
  <Task>0</Task> 
  <Opcode>0</Opcode> 
  <Keywords>0x8000000000000000</Keywords> 
  <TimeCreated SystemTime="2014-12-30T23:43:40.519688500Z" /> 
  <EventRecordID>21</EventRecordID> 
  <Correlation /> 
  <Execution ProcessID="4" ThreadID="3723912" /> 
  <Channel>Microsoft-Windows-StorageSpaces-Driver/Operational</Channel> 
  <Computer>****</Computer> 
  <Security UserID="S-1-5-18" /> 
  </System>
 <EventData>
  <Data Name="Id">{DE94C7EF-6A25-11E4-80B7-647002019326}</Data> 
  </EventData>
  </Event>

虚拟磁盘 {de94c7ef-6a25-11e4-80b7-647002019326} 处于降级状态。当承载虚拟磁盘的物理磁盘发生故障、断开连接或遇到写入错误时,可能会发生这种情况。

Windows 将尝试修复虚拟磁盘。目前无需采取任何措施。

答案1

假设您确实使用了容错模式(如奇偶校验或镜像),那么该错误就不可能发生。我能够在条带化设置中使用我知道有问题的磁盘重现该错误。因此,要么您已设置条带化,要么您发现了错误。如果您还没有这样做,我会在此时让 Microsoft 参与进来。

答案2

在与 Microsoft 支持工程师进行长时间的电子邮件讨论后,我们最终安装了以下汇总更新:

http://support.microsoft.com/kb/2887595

这包括一个似乎专门针对此问题的更新:

https://support.microsoft.com/en-us/kb/2897150

自安装汇总更新以来,该卷一直保持在线,没有任何问题。

相关内容