如何对海量数据集进行可视化/绘图?

如何对海量数据集进行可视化/绘图?

我有一个使用性能监视器收集的数据的 CSV 文件。它以 5 秒为间隔收集了两周的 CPU 使用率。

我需要能够以某种方式绘制或可视化数据,以帮助我确定 CPU 最大化和空闲的频率。

Excel 图表最多可容纳 32,000 个数据点,而我的数据点远不止这些。因此,我要么需要用不同的方式绘制数据图表,要么需要用一种方法过滤 Excel 中的数据,例如对 10 分钟时间段求平均值。

答案1

如果您只是想过滤掉数据达到最大值的时间,那么一个快速解决方案可能是将每次 32,000 个数据导入到多个 Excel 表中,然后过滤掉每一个数据以找出 CPU 达到最大值的时间。

对我来说,我通常会使用 Python、Numpy 和 Matplotlib 来做这种事情,但显然如果你没有首选的解决方案,那么学习新东西只是为了绘制一次数据可能会有点吃力。

答案2

我想说你必须研究一下R为此,不能只使用 Microsoft Excel。我自己还没有用过,但我大学里的学生用得很多,它应该可以处理这么多数据。

答案3

您可以对一分钟进行采样,将数据点从 241920 增加到 4032。为此,您需要在数据中添加一列,并创建一个仅标记分钟开始时间的函数。然后可以使用简单的 VLOOKUP() 进行采样。如果您需要有关示例函数的帮助,请发布有关数据格式(特别是日期/时间列)的详细信息。

当然,你可以不抽样,而是取平均值或取最大值和/或最小值

相关内容