当确定一个值需要超过一个主键,对数据聚合时就会产生“平均的平均”的问题。
例如,每个司机每天都有一个在线时长。要求当月每个司机每天的平均在线时长,就会有三种可能的做法:
- 直接所有对(司机,日期)对确定的所有时长取均值;
- 求每个司机当月的平均每天在线时长,再求当月平均所有司机的日均在线时长,即先对天平均,再对司机平均;
- 求每天平均每个司机的在线时长,再求当月每天的这个时长的平均值,即先对司机平均,再对天平均。
在绝大多数情况下,这三者都是不等价的。下面详细讨论。
举个例子。
时长(小时) | 司机甲 | 司机乙 | 司机丙 | 平均 |
---|---|---|---|---|
1日 | 12 | 3 | 7.5 | |
2日 | 1 | 8 | 4.5 | |
3日 | 10 | 10 | ||
平均 | 11 | 2 | 8 |
表中空缺的单元格表示该司机当日未出车。让我们来分别计算一下三个平均值:
- $A_1 = (12 + 10 + 3 + 1 + 8) / 5 = 6.8$;
- $A_2 = (11 + 2 + 8)/3 = 7$;
- $A_3 = (7.5 + 4.5+ 10)/3 = 7.3$。
直观地理解:用第一种方法算平均值,是对每个司机的每个日期的记录一视同仁地处理;用第二种方法,算到第二层平均值时,事实上假设了所有司机的当月每日平均在线时长是等价的;第三种方法同理。后两种方法可能是不公平的。例如,上面的表格中,有2条(40%)的记录是小于5小时的;但由于这两条记录都属于乙,在平均后,它们只能在最后的平均中占到33%的权重。再比如,丙只出车了1天,因此最后他的均值就是这一天的值;假如这一天他工作时间非常长或非常短,那么相比在更多日期工作的司机的某一天的记录,丙工作的唯一一天的这条记录将更能影响最后的平均结果。假如有许多司机只在第一天工作一小时就不再接单,他们对于最后的结果就将产生较大的影响,然而这是不佳的。
换言之,平均的平均之所以有问题,是因为模型的稳定性受损了。事实上,空缺的单元格就是一切麻烦的根源,空缺的单元格导致一行或一列的均值容易有较大浮动,或者说导致不同行列中的单元格数据对最后结果做出的贡献不等。假如所有的单元格是填满的,上面三个平均值是相等的。
由于第二种和第三种方法本质上没有差别,下面我们一般性地讨论一下第一种和第二种方法的差异。假如一共有$N$条数据,一共有$K$列,其中第$k$列有$N_k$条数据(显然$N_1 + N_2 + \dots + N_K = N$),第$k$列所有数据求和是$S_k$,那么:
$$
A_1 =\frac{S_1 + S_2 + \dots + S_K}{N}=\frac{S_1 + S_2 + \dots + S_K}{N_1 + N_2 + \dots + N_K}
$$
而
$$
A_2 = \frac{\frac{S_1}{N_1}+\frac{S_2}{N_2}+\dots+\frac{S_K}{N_K}}{K}
$$
不难发现:
$$
A_2-A_1 = \frac 1 K\sum_{k=1}^K S_k\left(\frac{1}{N_k}-\frac K N\right)
$$
容易验证$A_1 = A_2$的取等的一个充分条件是$N_1 = N_2 = \dots = N_K = N/K$;取等的另外一个充分条件是$S_k/N_k$全部相等。笔者难以找到取等的必要条件,但是可以确定的是,在一般业务场景下,即当数据量足够大的时候,不能期待这两者相等。