如何对 Linux 磁盘 IO 系统范围内的“挂起”进行分类

Question

模式（什么时候是否会发生降解？）以及相关指标（在性能下降过程中，是否有任何其他指标急剧下降/飙升？）通常是识别问题的最快途径扳机。

即使触发器不是造成问题的原因（例如，如果系统因内存压力而停滞，但机制为什么虽然这样做会更加复杂，但拥有可靠的复制方法是很有帮助的，这样你就可以获得更多的数据。

分类步骤：

使用类似工具netdata来直观地确定模式和/或相关指标。当问题发生时，性能指标是否发生了什么变化？最有帮助的指标可能出现较早而不是性能下降 - 你看到的问题很可能是恢复某些驱动程序或程序行为异常的阶段。
如果您无法发现触发因素，从而无法故意重现，您仍然可以找到一种确定问题何时再次发生的方法（例如，在下一次大磁盘写入时，每天 12:00，...）
top计划任务可确保您在事件期间（例如甚至）获取相关系统状态的快照（或每 X 个时间单位一次）echo t >/proc/sysrq-trigger ; dmesg。手动运行计划任务至少一次，以便缓存其依赖项

常见解释的想法：

Answer 1

模式（什么时候是否会发生降解？）以及相关指标（在性能下降过程中，是否有任何其他指标急剧下降/飙升？）通常是识别问题的最快途径扳机。

即使触发器不是造成问题的原因（例如，如果系统因内存压力而停滞，但机制为什么虽然这样做会更加复杂，但拥有可靠的复制方法是很有帮助的，这样你就可以获得更多的数据。

分类步骤：

使用类似工具netdata来直观地确定模式和/或相关指标。当问题发生时，性能指标是否发生了什么变化？最有帮助的指标可能出现较早而不是性能下降 - 你看到的问题很可能是恢复某些驱动程序或程序行为异常的阶段。
如果您无法发现触发因素，从而无法故意重现，您仍然可以找到一种确定问题何时再次发生的方法（例如，在下一次大磁盘写入时，每天 12:00，...）
top计划任务可确保您在事件期间（例如甚至）获取相关系统状态的快照（或每 X 个时间单位一次）echo t >/proc/sysrq-trigger ; dmesg。手动运行计划任务至少一次，以便缓存其依赖项

常见解释的想法：

相关内容