如何在驱动器处于“E”状态的 Synology NAS 上恢复 mdadm 阵列？

Question 1

这只是我在遇到相同问题后找到的解决方案的补充。我遵循了塞巴斯蒂安有关如何重新创建数组的博客文章：

我发现重新创建阵列的方法比上述方法效果更好。但是，重新创建阵列后，卷仍未显示在 Web 界面上。我的 LUN 均未显示。基本上显示一个未配置任何内容的新阵列。我联系了 Synology 支持，他们远程登录以解决问题。不幸的是，他们在我离开控制台时进行了远程登录。不过，我确实设法捕获了会话，并查看了他们所做的操作。在尝试恢复部分数据时，驱动器再次崩溃，我又回到了同样的情况。我按照 dSebastien 的博客中所述重新创建了阵列，然后查看了 synology 会话以执行更新。运行以下命令后，我的阵列和 LUN 出现在 Web 界面上，我能够使用它们。我几乎没有 Linux 经验，但这些是我在自己的情况下执行的命令。希望这可以帮助其他人，但请自行承担风险。最好联系 Synology 支持人员，让他们为您修复此问题，因为这种情况可能与您的情况不同

DiskStation> synocheckiscsitrg
synocheckiscsitrg: Pass 

DiskStation> synocheckshare
synocheckshare: Pass SYNOICheckShare()
synocheckshare: Pass SYNOICheckShareExt()
synocheckshare: Pass SYNOICheckServiceLink()
synocheckshare: Pass SYNOICheckAutoDecrypt()
synocheckshare: Pass SYNOIServiceShareEnableDefaultDS()

DiskStation> spacetool --synoblock-enum
****** Syno-Block of /dev/sda ******
//I've removed the output. This should display info about each disk in your array

DiskStation> vgchange -ay
  # logical volume(s) in volume group "vg1" now active

DiskStation> dd if=/dev/vg1/syno_vg_reserved_area of=/root/reserved_area.img
24576+0 records in
24576+0 records out

DiskStation> synospace --map_file -d
Success to dump space info into '/etc/space,/tmp/space'

DiskStation> synocheckshare
synocheckshare: Pass SYNOICheckShare()
synocheckshare: Pass SYNOICheckShareExt()
synocheckshare: Pass SYNOICheckServiceLink()
synocheckshare: Pass SYNOICheckAutoDecrypt()
synocheckshare: Pass SYNOIServiceShareEnableDefaultDS()

DiskStation> synocheckiscsitrg
synocheckiscsitrg: Not Pass, # conflict 

DiskStation> synocheckiscsitrg
synocheckiscsitrg: Pass

Answer

这只是我在遇到相同问题后找到的解决方案的补充。我遵循了塞巴斯蒂安有关如何重新创建数组的博客文章：

我发现重新创建阵列的方法比上述方法效果更好。但是，重新创建阵列后，卷仍未显示在 Web 界面上。我的 LUN 均未显示。基本上显示一个未配置任何内容的新阵列。我联系了 Synology 支持，他们远程登录以解决问题。不幸的是，他们在我离开控制台时进行了远程登录。不过，我确实设法捕获了会话，并查看了他们所做的操作。在尝试恢复部分数据时，驱动器再次崩溃，我又回到了同样的情况。我按照 dSebastien 的博客中所述重新创建了阵列，然后查看了 synology 会话以执行更新。运行以下命令后，我的阵列和 LUN 出现在 Web 界面上，我能够使用它们。我几乎没有 Linux 经验，但这些是我在自己的情况下执行的命令。希望这可以帮助其他人，但请自行承担风险。最好联系 Synology 支持人员，让他们为您修复此问题，因为这种情况可能与您的情况不同

DiskStation> synocheckiscsitrg
synocheckiscsitrg: Pass 

DiskStation> synocheckshare
synocheckshare: Pass SYNOICheckShare()
synocheckshare: Pass SYNOICheckShareExt()
synocheckshare: Pass SYNOICheckServiceLink()
synocheckshare: Pass SYNOICheckAutoDecrypt()
synocheckshare: Pass SYNOIServiceShareEnableDefaultDS()

DiskStation> spacetool --synoblock-enum
****** Syno-Block of /dev/sda ******
//I've removed the output. This should display info about each disk in your array

DiskStation> vgchange -ay
  # logical volume(s) in volume group "vg1" now active

DiskStation> dd if=/dev/vg1/syno_vg_reserved_area of=/root/reserved_area.img
24576+0 records in
24576+0 records out

DiskStation> synospace --map_file -d
Success to dump space info into '/etc/space,/tmp/space'

DiskStation> synocheckshare
synocheckshare: Pass SYNOICheckShare()
synocheckshare: Pass SYNOICheckShareExt()
synocheckshare: Pass SYNOICheckServiceLink()
synocheckshare: Pass SYNOICheckAutoDecrypt()
synocheckshare: Pass SYNOIServiceShareEnableDefaultDS()

DiskStation> synocheckiscsitrg
synocheckiscsitrg: Not Pass, # conflict 

DiskStation> synocheckiscsitrg
synocheckiscsitrg: Pass

Question 2

另有补充：我在我的单磁盘/RAID 级别 0 设备上遇到了非常类似的问题。

Synology 支持非常很有帮助，恢复了我的设备。以下是发生的事情，希望这对其他人有所帮助：

我的磁盘在某个特定块上出现读取错误，系统日志（dmesg）中的消息如下：

[4421039.097278] ata1.00: read unc at 105370360
[4421039.101579] lba 105370360 start 9437184 end 5860528064
[4421039.106917] sda3 auto_remap 0
[4421039.110097] ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6
[4421039.116744] ata1.00: edma_err_cause=00000084 pp_flags=00000003, dev error, EDMA self-disable
[4421039.125410] ata1.00: failed command: READ FPDMA QUEUED
[4421039.130767] ata1.00: cmd 60/00:08:b8:d2:47/02:00:06:00:00/40 tag 1 ncq 262144 in
[4421039.130772]          res 41/40:00:f8:d2:47/00:00:06:00:00/40 Emask 0x409 (media error) <F>
[4421039.146855] ata1.00: status: { DRDY ERR }
[4421039.151064] ata1.00: error: { UNC }
[4421039.154758] ata1: hard resetting link
[4421039.667234] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
[4421039.887286] ata1.00: configured for UDMA/133
[4421039.891777] ata1: UNC RTF LBA Restored
[4421039.895745] ata1: EH complete

几秒钟后，我Volume 1 has crashed从我的设备收到了一封可怕的邮件。

-- 免责声明：请务必用您的设备名称替换设备名称，不要简单地复制粘贴这些命令，因为这可能会使情况变得更糟！--

停止 smb 后，我可以以只读方式重新挂载分区并运行带有 badblocks check 的 e2fsk（-c）：

umount /dev/md2
e2fsck -C 0 -v -f -c /dev/md2

（也可以使用e2fsck -C 0 -p -v -f -c /dev/md2尽可能无人值守的方式运行，虽然这在我的情况下不起作用，因为必须手动修复错误。所以我不得不重新启动 e2fsck。结论：如果出现磁盘错误，-p 没有多大意义）

尽管 e2fsck 能够修复错误，并且 smartctl 也显示 Raw_Read_Error_Rate 不再增加，但设备仍然无法以读写模式挂载该卷。DSM 仍然显示“卷崩溃”

所以我向支持人员开了一张票。一开始花了很长时间才让事情顺利进行，但最后他们通过重建 RAID 阵列解决了这个问题：

synospace --stop-all-spaces
syno_poweroff_task -d 
mdadm -Sf /dev/md2
mdadm -AfR /dev/md2 /dev/sda3

在执行任何操作之前，请务必检查您的设备名称（/dev/mdX和）。将显示相关信息。/dev/sdaXcat /proc/mdstat

Answer