我有两到六个过去事件的日期,并且根据每个事件的平均间隔,我需要预测下一个事件发生的时间。
C4-D4
从屏幕截图中可以看出,我本质上想取 ( )、( D4-E4
)、( )的平均值,E4-F4
并跳过 ( F4-G4
),因为它是空白的。然后我想将平均天数添加到最近的值 ( C4
) 以得出 ( A4
),即预测的下一次发生。
我想要一个公式来B4
计算平均天数,如果其中一个或两个单元格为空,则跳过计算。
我试过Max-Min/CountIf
:
=IFERROR((MAX(C4:G4)-MIN(C4:G4))/COUNTA(C4:G4),"")
但是每次出现的数字都太低了,在行的情况下5
,159
它应该是214
,而行6
应该是337
。当我尝试AVERAGE
跨日期使用时,我没有得到天数,而是得到了平均日期。
答案1
您的公式应该从分母中减去 1,因为您要计算的是差值而不是实际数字。
=IFERROR((MAX(C4:G4)-MIN(C4:G4))/(COUNTA(C4:G4)-1),"")
如果您想跳过辅助列:
=IFERROR(MAX(C4:G4) + (MAX(C4:G4)-MIN(C4:G4))/(COUNTA(C4:G4)-1),"")
您还可以使用 FORCAST:
=FORECAST(0,C4:G4,ROW($1:$5))
甚至拦截:
=INTERCEPT(C4:G4,ROW($1:$5))
这两者使用的是趋势而不是平均值,因此如果差异很大,它们会得出不同的值。
答案2
Scott Craner 的回答涵盖了问题中提出的任务,即根据平均间隔预测下一个日期。它还提出了使用趋势的替代方法。这可能是更好或更坏的方法,具体取决于数据的含义。这个答案将重点介绍差异,以便读者可以应用适当的解决方案。
问题和 Scott 的回答都用于(Max - Min)/(interval count)
查找平均间隔。这很好,但为了说明效果,我将计算间隔并使用这些间隔,因为这样可以在图表中轻松查看。我将使用第 6 行数据,因为这是第一行包含五个值的数据。因此该数据如下所示。
C 列中第五个和第六个事件之间的估计间隔将给出事件 6 的日期。如果绘制间隔,它们看起来如下所示:
平均间隔如下所示:
平均值在任何一点都是相同的,它只是一个值,在本例中是225.5
。如果你把它添加到最后一个日期,你就会得到预计的下一次发生日期7/13/2019
。
问题就在这里。你记录的过程是遵循某种模式的,还是接近随机的?随机事件不会像锯齿一样,随着每个连续事件而遵循可预测的上下波动模式。它们包括沿同一方向的一系列观察。如果数据实际上是随机的,则有统计测试可以确定模式的可能性,但人们的大脑天生就喜欢看到模式,因此数据中的模式通常被认为是有意义的。数据模式有点像罗夏墨迹,人们将可能实际上并不存在的意义投射到它们身上。
如果您正在调查模式,您可以查看数据并决定是否测试看似模式的内容。但是,如果您预计数据是随机的,或者想要对下一个事件进行无偏估计,那么您就不想从模式假设开始。如果您盲目地使用趋势线,那就是您要做的。正如问题中提出的那样,在这种情况下使用平均值是可行的方法。
举个例子。看着数据,你的大脑试图让你相信数据遵循一条曲线。它似乎总体上在增加,尽管曲线似乎趋于平稳。那么,在没有任何其他信息的情况下,调整模式的最佳方法是什么?如果你根据连续的高阶拟合来预测下一个间隔,就会发生以下情况。
一阶拟合是一条直线,通过简单的趋势可以得到:
认为这些值总体上呈增加趋势,并估计下一个间隔为259.5
。二阶拟合如下所示:
它将最后一个间隔视为高点,并估计下一个间隔会更低。232
三阶拟合是四个间隔可以达到的最高值,如下所示:
三阶线将完美拟合四个点。它会找到几个拐点,并在最后一个点之后走高,从而估计253
下一个间隔。
因此,根据您认为哪种线最能代表生成“模式”的底层过程,下一个事件的范围可能是从7/13/2019
到8/16/2019
。
扩展任何这些“趋势”来预测第七个事件将会产生更加大相径庭的结果。这些结果有五个数据点。即使您相信数据确实遵循某种模式,也没有足够的数据可供估算。由于数据点更少(许多数据行都有),任何形式的估算都是有风险的。如果您有理由相信数据确实遵循某种模式,并且您的数据通常符合该模式,则使用适当形状(即公式类型)的趋势线可能会为您提供“最佳”估计值,但在这种情况下,请使用置信区间而不是点估计值,或者除了点估计值之外还使用置信区间。这至少可以让您了解您可能偏离的距离。
请记住,任何形式的趋势线都假设存在一种潜在模式,并且该模式反映在数据中。如果确实存在模式,那么几个数据点通常不足以估计它。但可能根本没有模式,只是观察的偶然序列。在这种情况下,基于模式的估计可能会让你偏离任意方向,从而给你的预测带来重大错误。
但还有另一种可能性。很多事情都遵循一个周期。观察结果实际上可能是模式的一部分,但只是模式的一小部分。在这个例子中,这些观察结果可能是长达数十年的周期的一部分,看起来像正弦波。这些观察结果可能准确地反映了接近周期的顶峰,因此后续模式可能是向下而不是向上(类似于上面的二阶拟合)。因此,即使模式是真实的,在不了解模式背后的潜在过程的情况下推断数据范围之外也是危险的。