因此,我基本上是在收集我的论文工作成果(主要围绕测量网络带宽和数据包延迟),但我对我的图表的外观或者说它们之间的比较方式并不是很满意。
在一种情况下,我可能会展示系统负载较小时的数据包延迟。因此,数据包延迟通常比高负载场景低得多。
显然,缩放比例会有很大不同。但如果我开始单独缩放每个图表以适合数据,那么比较图表也会变得更加困难。
这是我的小负载下的图表:
中等负载时:
在实际负载下:
正如您所见,您几乎看不到任何东西。红线和绿线是中位数和平均值。我也不确定如何绘制它们。
我考虑将比例(y 轴)缩放到 25%,但我也遇到过 75% 的数据包具有相同延迟数的情况。
顺便说一句,这些十字表示的比例非常小(0.05%及以下),ybar 没有意义。
有什么想法可以解决这个问题吗?
编辑:我提出了一种更好的新方法(我认为):
我使平均和中位延迟的垂直线更加突出,并且百分比值现在累积在 x 轴上。
其中一个积极的方面是:
- x 轴上不再有难看的十字
消极的:
- 很难看到“异常值”(因为可能有一些非常少量的数据包的延迟为 1500µs)
- 可能的修复:添加 99% 百分位线
您对这种新方法有什么看法?
示例数据(针对绘制数据的第一种方法):https://pastebin.com/wpmShWN2
注意:中位数和平均值有两个条目:带有“95%”的条目用于我的 pgfplot 程序了解绘制垂直线的高度。实际测量值位于另一个条目中。
答案1
我曾经也经历过和你一样的情况。除非有外部原因迫使你是轴跨度从 0% 到 100%(假设是您的顾问 ;) )您拥有信息丰富的情节的意图是好的(也是正确的)。提供信息是精心构思的情节的主要目标。
我建议你看一下 Edward Tufte 关于如何用图表呈现数据的方法。Tufte 的图表并不常见,但信息量很大。以下是一些关于其实现的说明https://tug.org/TUGboat/tb34-2/tb107dugge.pdf
否则,默认设置pgfplots
应该已经提供良好的输出。
另一个想法是根据当前绘制数据的最大 y 值对数据进行归一化,这样你就可以获得所有的是图表的轴从 0 到 1,而不会丢失有关数据行为的信息。
您介意分享一些数据文件以便我们尝试一下吗?