我正在尝试安装主机操作系统,但无论我尝试安装什么,它总是会因 I/O 相关错误而失败。查看互联网上描述的类似问题,一切都指向即将发生/现有的磁盘故障。我尝试了多种 RAID 组合来缩小问题范围,但到目前为止没有成功。该机器是带有 PERC H710p RAID 控制器的 Dell R720,最初配备 6 个 600GB 6G SAS 10k 2.5 英寸驱动器。尝试了这些:
- 1 个磁盘 RAID 0(第 1 组),5 个磁盘 RAID 5(第 2 组):尝试在 /dev/sda(第 1 组)和 /dev/sdb(第 2 组)上安装时出错,尝试使用托架中的不同磁盘形成相同的组
- 3x RAID 1:尝试在 /dev/sda、/dev/sdb 和 /dev/sdc 上安装时出错
- 移除了 3 个驱动器,在剩下的 3 个驱动器上尝试了 1x RAID 5:错误同样出现
我目前尝试过的操作系统:
- Alpine 3.13:报告 I/O 错误,安装程序在尝试写入分区表时退出并灰显
- Ubuntu 16 LTS:安装过程开始时报告 I/O 错误
- Ubuntu 18 LTS:udevadm 解决多次重试,之前报告 I/O 错误,安装程序崩溃并重新启动到区域选择
- Ubuntu 20 LTS:与 Ubuntu 18 相同
- CentOS 7:在尝试写入磁盘时报告了 python anaconda 错误,甚至在我能够输入 root 密码之前,安装程序挂起,机器需要硬重启
- XenServer 7.0:安装程序在 68% 处停止,机器需要硬重启
对于所有这些,无论我将哪个磁盘组 (VD?) 用于操作系统,只要安装程序尝试写入分区表,所选磁盘组中的所有磁盘都会开始闪烁琥珀色。Ubuntu 18 / 20 在输入用户名、服务器名称和密码时始终如此。重新启动后,磁盘再次闪烁绿色。在 RAID 配置 (CTRL+R) 中,所有磁盘都处于联机状态,VD 状态报告为最佳。我在 BIOS 的启动属性中设置了 SATA AHCI。
我在服务器上运行了生命周期管理器测试,一切正常。没有报告任何错误,除了缺少 PERC 电池,因为服务器没有物理安装 PERC 电池。我明白为什么我需要这块电池来在断电时保持数据一致性,但它不应该阻止我安装操作系统?我怀疑 RAID 控制器有故障,但我不是专家。
我还能做些什么来进一步诊断问题吗?
答案1
我会检查整个主板的固件是否已更新到最新版本(BIOS、PERC、磁盘等),以防问题已经解决。
如果问题仍然存在,我会更换 PERC 卡并尽可能购买带电池的卡(您真的不希望在断电时磁盘损坏,它将允许您安全地使用写回缓存,这将提高阵列的写入吞吐量)。
如果问题仍然存在,请查看背板本身。我从未遇到过背板问题,但这种情况确实会发生。