第一步,概念铺垫
先介绍业务端的逻辑与用到的基本统计知识
1、业务化概念
AB实验的2个目的:
1.判断哪个更好:例如有2个UI设计,究竟是A更好一些,还是B更好一些,我们需要实验判定。
2.计算收益:例如最近新上线了一个小视频模块,那么小视频究竟给信息流带来了多少额外的用户时长,带来了多少额外的点击率提升。
AB实验的业务逻辑
一个典型的AB实验流程主要分为三个阶段:需求阶段 – 开发/实验阶段 – 结论阶段
2、统计在做什么
本质:
用样本估计总体指标。
为啥不用总体直接算:
if can…everyone will…
3、用到的统计思路
置信区间:
对一个概率样本的总体参数进行区间估计的样本参数范围。例如一段均值范围包含总体均值的概率为95%。其中95%为置信区间的置信水平。
置信水平:
在业务中简单理解成为估计的可靠程度,有多大把握保证总体参数参数在这里面
统计显著:
在假设检验中,如果样本数据拒绝原假设,则称检验结果统计显著。在业务上可以理解为指这样的样本数据不是偶然得到的,即不是抽样的随机波动造成的,而是由内在的影响因素导致。
原假设:
业务方想收集数据予以反对的假设,例如某项策略或者功能的改动没有给业务带来明显收益。或者实验组对照组核心参数没有区别。这项改进没有意义。
备择假设:
反之即可
第二步,业务化
业务中如何实战
1、从业务理解置信区间
我们主要通过某个指标的试验版本均值变化值和置信区间来判断,在这个指标上,试验版本是否比对照版本表现得更好。
如果置信区间同为正或同为负,说明试验结果是统计显著的。如果置信区间为一正一负,说明试验结果是非统计显著的。
例如,实验样本可以得到均值与对应的置信区间,以下为相关情况:
案例 | 变化均值 | 置信区间 | 是否显著 |
---|---|---|---|
1 | 8% | [+6.4%, +9.6%] | 统计显著 |
2 | 5% | [2.4%, +7.6%] | 统计显著 |
3 | 6% | [-3.4%, +5.6%] | 统计不显著 |
4 | 1% | [-6.4%, +4.6%] | 统计不显著 |
2、统计显著与效果显著
统计显著在业务上意味着实验版本与原有版本在特定的样本容量(统计功效)下已经检查出了令人信服的差异,但是并不意味着可以马上推全。这里还有一层考虑因素,那就是效果显著。
实验版本的结果只有兼备统计显著和效果显著两个特征,该版本才是可用的,值得发布的
最小重要变化:人为设定的最小的指标变化要求,只有置信区间的下限大于最小重要变化后,这个版本才值得发布。若置信区间包含最小重要变化,则认为效果不确定。
3、变废为宝,非统计显著分析
非统计显著,意味着原假设无法拒绝,实验版本与原版本在统计学上参数没有差异,但是不意味着原假设是正确的。
非统计显著只能说明当前的统计功效较小,不足以检测出试验版本和对照版本的真正差异,只能说目前结论与原假设不冲突,例如[-3.4%, +5.6%],也是存在5.6%为总体样本均值的可能性的。这在业务上,就意味着两种可能性:1、差异确实很小,即使样本容量很大了还是检测不出来;2、差异可能很大,但是由于样本数量太少或者选择时方差太大,导致统计功效小,也检测不出来。
一般而言,低于最小重要变化的情况,区间上限甚至小于最小重要变化,这时认为是情况1;效果不确定情况下,认为情况2的可能性大一些。
对于情况2的处理思路:
1、样本容量太小:一般是由于实验的时间太短导致,没有涵盖一个用户正常的LT或者没有涵盖足够数量的用户,可以多观察几天,减少方差
2、样本方差太大:重新设计实验,如果功能很重要,也是ld的核心推进路径,最简单可以重新实验一波
4、一些补充
两类错误
- 第 I 类错误(弃真错误):原假设为真时拒绝原假设;第 I 类错误的概率记为 α。
- 第 II 类错误(取伪错误):原假设为假时未拒绝原假设。第 II 类错误的概率记为 β。
α 是一个概率值,表示原假设为真时, 拒绝原假设的概率,也称为抽样分布的拒绝域。在这两类错误中,相对更加严重的是第 I 类错误,所以 α 的取值应尽可能小。
一类错误下,业务方误认为实验有效故而推全了功能和结论,而实际上是没区别的。采取了错误的方案导致严重损失或者耗费无意义成本,是业务上不可接受的。
换句话说,宁愿不改也不错改。
显著性水平
显著性水平 p(p-value)是指在原假设为真的条件下,样本数据拒绝原假设这样一个事件发生的概率。
例如,我们根据某次假设检验的样本数据计算得出显著性水平p=0.04;这个值意味着如果原假设为真,我们通过抽样得到这样一个样本数据的可能性只有4%。