AB测试 - 假设检验的两类错误
假设检验的基本思想
假设检验的基本思想是“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝假设H0,否则应接受假设H0 [1][ ]() []()[]()[]()[]()[]()[]()。 假设检验中所谓“小概率事件”,并非逻辑中的绝对矛盾,而是基于人们在实践中广泛采用的原则,即小概率事件在一次试验中是几乎不发生的,但概率小到什么程度才能算作“小概率事件”,显然,“小概率事件”的概率越小,否定原假设H0就越有说服力,常记这个概率值为α(0<α<1),称为检验的显著性水平。 对于不同的问题,检验的显著性水平α不一定相同, 一般认为,事件发生的概率小于0.1、0.05或0.01等,即“小概率事件”复制代码
I类错误(α错误/弃真错误)
原假设H0正确,但检验结论不满足显著性水平要求(Pvalue < α ),进而拒绝了原假设H0。 犯I类错误的概率记为α。 【原因】 进行假设检验时,我们假定小概率事件在一次抽样过程中是不会发生的。 但实际上,小概率事件(样本中存在极端数据)仍有发生的可能。 因此,当小概率事件发生的可能性增大时,就会出现I类错误。 假设检验中,小概率事件发生的概率之和,我们称之为显著性水平(α)。 因此I类错误发生的概率,就是我们所选择的显著性水平取值。 当显著性水平取值增大,就容易发生I类错误。 例如:根据实验数据求得Pvalue = 0.06,在常用置信度为95%,即显著性水平 α = 0.05时, Pvalue > 0.05,接受H0。 但当取 α = 0.07时,置信度 1- α = 93%,Pvalue<0.07,拒绝H0。 根据正态分布概率取值图也可理解为,置信区间缩小,导致原本符合正常情况的数据被刨除在外。复制代码
II类错误(β错误/取伪错误)
原假设H0错误,但检验结论满足显著性水平要求,进而接受原假设H0。 犯II类错误的概率记为β。 【原因】 II类错误的概率其实也可以理解为对于显著性水平取值的调整。 通常情况下,我们以5%作为小概率事件发生的临界值,当我们认为小概率事件发生的概率(β)进一步缩小时,就可能导致置信区间扩大,原本不符合正常情况的数据涵盖在内。 例如:根据实验数据求得Pvalue = 0.04, 在常用置信度为95%,即显著性水平 α = 0.05时,Pvalue < 0.05,拒绝H0。 但当我们假设小概率事件可能性进一步缩小,即 β = 0.03时,置信度 1- β = 97%,Pvalue > 0.03,接受H0。 复制代码
如何避免假设检验的两类错误
1.在样本容量不变的前提下,无法做到同时减少两种错误。 此时,两种错误发生的概率呈负相关 2.在样本容量不变的前提下, 通常先保证I类错误概率α的取值较低的情况下,尽量减小II类错误概率β 3.通过增加样本容量,同时减少两类错误复制代码
在样本容量不变的前提下,如何抉择优先减小哪类错误?
【例1】 法律审判是否有罪:H0:罪犯无罪; H1:罪犯有罪 I类错误:罪犯无罪,但判定为有罪 II类错误:罪犯有罪,但判定为无罪 -> 由于社会人口基数足够大,而犯罪毕竟是少部分的人,因此可以优先考虑避免I类错误,即避免冤假错案。 【例2】 大流行传染性疾病:H0:不是病毒携带者 H1:是病毒携带者 I类错误:不是病毒携带者,但判定为携带者 II类错误:是病毒携带者,但判定为不是携带者 -> 当病毒携带者被判定为非携带者,进而没有进行有效隔离,就会传染更多的无辜群众,导致疾病进一步扩散。 对于社会的影响远大于将非携带者认定为携带者从而进行有效隔离和救治。 因此在这个情况下,优先考虑避免II类错误。 通过上述2个例子,我们可以得出: 如何抉择优先减小哪一类错误,应该具体情况具体分析。
作者:HZ在掘金
链接:https://juejin.cn/post/7028188387223797790