我在 Yocto OS 下通过 mdadm 对由 6x SSD 构建的 RAID0 执行 FIO 压力测试时遇到问题,以下是信息:
- 6x PCIe NVMe SSD 属于同一供应商和型号,属于 1.02TB 汽车级。
- 测试使用的 FIO 参数:fio --filename=/dev/md127 --direct=1 --rw=randrw --bs=64k --ioengine=libaio --iodepth=64 --runtime=43200 --numjobs=16 --time_based --group_reporting --name=randomrw --eta-newline=1
- 系统运行30分钟后自动重启
问题是我想知道为什么它会导致系统随机自动重启,这是软件问题或软件限制,还是硬件问题?你能建议如何隔离问题吗?
我将删除 RAID0,然后首先在单个 SSD 上使用相同的 FIO 参数再次尝试,如果无法重现,则将在所有 6 个 SSD 上使用相同的参数但不使用 RAID 模式再次运行测试。
谢谢,Jacky
答案1
我们发现:
- RAID0 和非 RAID 模式均因相同的 FIO 参数而失败(仅 --filename 的目标不同)。
- 当问题出现时,通过相同的 FIO 参数重新运行测试将立即再次遇到问题,除非您格式化 SSD,但在运行约 30 分钟后将再次失败。
- 使用给定的--size参数时没有遇到该问题。
- 发生问题时,SSD会遇到过流问题。(可接受:低于2A,过流:5.5A)
答案2
只需将同样的问题发布到 FIO GitHub 并得到 FIO 开发人员的回复,见下面的屏幕截图。