磁盘 IO 过重会导致静默重启吗?

磁盘 IO 过重会导致静默重启吗?

我们有一台运行 Ubuntu 16.04 的服务器,我们在上面进行了很多实验,它有 4 个至强处理器和 2 个 RAID 控制器(每个控制器都装有 1TB SSD)。我们连续几个月使用全部 64 个核心运行作业,没有出现任何问题。我们已经使用它一年多了,没有任何问题,直到我们尝试了新的工作负载。

在短时间内执行大量磁盘 IO(数百 GB 到 1 TB)时,服务器会进行静默重启。我们无法在任何日志中找到重启信息。运行“上次重启”甚至无法识别发生过重启,但检查正常运行时间会显示它最近确实重启过。

磁盘输入输出过多会导致无声重启。我们尝试重建 RAID 分区。我们更换了 1 个看起来与其他驱动器相比有点奇怪的驱动器(但似乎仍然可以工作)。并从 14.04 升级到 16.04。我们还更新了 RAID 控制器和 SSD 上的固件,但这没有帮助。

重启仍然会发生,我们不太清楚如何找出原因。似乎没有任何东西记录问题,我希望这里有人之前见过这种情况,或者知道除了 syslog 和 dmesg(后者为空)之外还有什么地方可以查看。

相关内容