ThinkServer RD440 突袭混乱

ThinkServer RD440 突袭混乱

有人有处理这些新 Thinkpad 服务器上的 raid 配置的经验吗?

我的问题如下:为了能够启动此服务器,我必须将驱动器放入 RAID1 以创建 SCM 设备。

我用 2x1TB 驱动器执行了此操作(然后由于 debian wheezy 安装程序甚至无法识别 raid 控制器,我不得不在其他机器上使用 debootstrap 外部安装系统)。

最后我得到了一个可以运行的系统,现在我想把它放入突袭中。

md126 : active raid1 sda[0]
      975585280 blocks super external:/md127/0 [2/1] [U_]

md127 : inactive sda[0](S)
      1177304 blocks super external:ddf

unused devices: <none>

但是,当我尝试将第二个驱动器(是的,它有 sdg 驱动器号)重新添加到阵列时,我收到此错误消息:

mdadm --manage /dev/md126 --add /dev/sdg
mdadm: Cannot add disks to a 'member' array, perform this operation on the parent container

如果我分别检查这两个磁盘,我会看到:

/dev/sda:
          Magic : de11de11
        Version : 01.00.00
Controller GUID : 4C534920:20202020:FFFFFFFF:FFFFFFFF:FFFFFFFF:FFFFFFFF
                  (LSI     )
 Container GUID : 4C534920:20202020:80861D60:00000000:4229D10D:4229E531
                  (LSI      03/05/15 16:32:29)
            Seq : 00000001
  Redundant hdr : yes
  Virtual Disks : 1

      VD GUID[0] : 4C534920:20202020:80861D60:00000000:422AD2BC:00001450
                  (LSI      03/06/15 10:51:56)
         unit[0] : 0
        state[0] : Degraded, Not Consistent
   init state[0] : Fully Initialised
       access[0] : Read/Write
         Name[0] : 
 Raid Devices[0] : 2 (0 1)
   Chunk Size[0] : 128 sectors
   Raid Level[0] : RAID1
  Device Size[0] : 975585280
   Array Size[0] : 975585280

 Physical Disks : 2
      Number    RefNo      Size       Device      Type/State
         0    ee4c2c39  975585280K /dev/sda        active/Online
         1    f70c96f2  975585280K                 active/Offline, Failed, Missing


/dev/sdg:
          Magic : de11de11
        Version : 01.00.00
Controller GUID : 4C534920:20202020:FFFFFFFF:FFFFFFFF:FFFFFFFF:FFFFFFFF
                  (LSI     )
 Container GUID : 4C534920:20202020:80861D60:00000000:4229D10D:4229E531
                  (LSI      03/05/15 16:32:29)
            Seq : 0000002b
  Redundant hdr : yes
  Virtual Disks : 1

      VD GUID[0] : 4C534920:20202020:80861D60:00000000:4229F055:00001450
                  (LSI      03/05/15 18:45:57)
         unit[0] : 0
        state[0] : Degraded, Consistent
   init state[0] : Not Initialised
       access[0] : Read/Write
         Name[0] : 
 Raid Devices[0] : 2 (0 1)
   Chunk Size[0] : 128 sectors
   Raid Level[0] : RAID1
  Device Size[0] : 975585280
   Array Size[0] : 975585280

 Physical Disks : 2
      Number    RefNo      Size       Device      Type/State
         0    ee4c2c39  975585280K                 active/Offline, Failed, Missing
         1    f70c96f2  975585280K /dev/sdg        active/Online

这些 md126 设备到底是怎么回事?!我认为这个联想 raid 控制器只不过是一个假突袭控制器我在 HP 服务器上遇到过很多情况,它们允许您创建 RAID 阵列,但随后您的操作系统会自行执行 RAID 复制,因此没有什么比使用 MDAM 自行执行此操作更好的了。事实上,它使事情变得更加复杂。

如果我可以让机器以其他方式启动,我会很乐意跳过整个硬件突袭......

我认为这个问题的答案对于遇到这个相对较新的服务器系列的很多人来说会很有用。

谢谢

答案1

因此,我为了让所有需要处理此类假突袭控制器的人都能从中受益,回答我自己的问题。

这是我所做的:

1,将第二个磁盘(sdg)上的超级块清零,该超级块是在启动时由 raid bios 写入的

mdadm --zero-superblock /dev/sdg

2,现在有趣的是,md126 不是主 raid 阵列:

mdadm -Q --examine /dev/md126
/dev/md126:
   MBR Magic : aa55
Partition[0] :       979902 sectors at           63 (type 83)
Partition[1] :    195318270 sectors at       979965 (type 83)
Partition[2] :     29302560 sectors at    196298235 (type 82)
Partition[3] :   1727924373 sectors at    225600795 (type 83)

3,它是 md127。所以我所做的就是将这个新驱动器重新添加到 md127:

mdadm --manage /dev/md127 --force --add /dev/sdg

由于驱动器稍微大一些,我不得不强行执行。

4、现在团队正在重建。

Personalities : [raid1] 
md126 : active raid1 sdg[2] sda[0]
      975585280 blocks super external:/md127/0 [2/1] [U_]
      [>....................]  recovery =  3.3% (32576000/975585280) finish=203.9min speed=77076K/sec

md127 : inactive sdg[1](S) sda[0](S)
      2354608 blocks super external:ddf

unused devices: <none>

我很好奇,联想的 raid bios 在下次重启时会如何描述阵列。它会将其识别为健康阵列还是说它仍然处于降级状态(我怀疑是这样)。我强烈建议大家不要购买这些廉价的垃圾 Thinkserver,联想品牌甚至不值得再被大写,因为他们最近制造了垃圾笔记本电脑(服务器也是如此)。

恢复开始后,日志中还出现了与设备映射器 ioctl 相关的内容。希望它不会影响阵列的重建。

[Tue Mar 17 12:29:07 2015] md: recovery of RAID array md126
[Tue Mar 17 12:29:07 2015] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[Tue Mar 17 12:29:07 2015] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[Tue Mar 17 12:29:07 2015] md: using 128k window, over a total of 975585280k.
[Tue Mar 17 12:29:08 2015] device-mapper: table: 254:0: mirror: Device lookup failure
[Tue Mar 17 12:29:08 2015] device-mapper: ioctl: error adding target to table
[Tue Mar 17 12:29:09 2015] device-mapper: table: 254:0: mirror: Device lookup failure
[Tue Mar 17 12:29:09 2015] device-mapper: ioctl: error adding target to table
[Tue Mar 17 12:29:16 2015] device-mapper: table: 254:1: mirror: Device lookup failure
[Tue Mar 17 12:29:16 2015] device-mapper: ioctl: error adding target to table

答案2

(这不是答案,而只是为试图使用以下方法解决问题的人提供的旁注网页管理- 请参阅上面的答案以获得更好的解释)

我尝试通过 Webmin(UI 方式)添加备用磁盘,但由于它错误地将 md126 视为主 raid 阵列,因此在 Webmin 中不可能实现。不过,我能够看到重建进度在 Webmin > 硬件 > Linux RAID 中:

在我的例子中,将备用超级块归零不起作用,所以我跳过了该步骤。在我的例子中,md127 也是主阵列并且只需将备用设备添加到正确的 RAID 设备即可:

mdadm --manage /dev/md127 --add /dev/sdc

它在 Webmin 中失败,因为 webmin 会执行以下操作:

mdadm --manage /dev/md126 --add /dev/sdc

以下是我的步骤(控制台顶部,Webmin 底部):

Webmin v 1.890 显示错误的 RAID 设备名称

相关内容