离群值检验是如何工作的?
统计离群值检验分析两个假设:工作假设和备择假设。工作假设H是一个陈述,即n个对象的整个数据集都来自初始分布模型F,即H:oi ∈ F,其中i = 1, 2, …, n。
如果没有统计上重要的证据支持其拒绝,则保留该假设。离群值检验检查对象oi相对于分布F是否本质上很大(或很小)。基于对数据的可用知识,已经提出了不同的检验统计量作为离群值检验。
假设已经为离群值检验选择了一些统计量T,并且对象oi的统计量值为vi,则构造T的分布。计算显著性概率SP(vi) = Prob(T > vi)。
如果某个SP(vi)足够小,则oi是离群值,并且拒绝工作假设。采用另一种假设,该假设指出oi来自另一个分布模型G。结果很大程度上取决于选择哪个F模型,因为oi在一个模型下可能是异常值,而在另一个模型下却是完全有效的值。
备择分布对于决定检验的功效(即当oi为异常值时拒绝工作假设的概率)非常重要。有几种类型的备择分布。
固有备择分布 − 在这种情况下,所有对象都来自分布F的工作假设被另一个假设所取代,即所有对象都来自另一个分布G −
H:oi ∈ G,其中i = 1, 2, …, n
F和G可以是不同的分布,或者仅在同一分布的参数上有所不同。对G分布的形式有一些约束,因为它应该有可能产生异常值。例如,它可以具有不同的均值或离散度,或者具有长尾。
混合备择分布 − 混合备择假设指出,离群值不是F总体中的异常值,而是来自其他一些总体的污染。在这种情况下,备择假设是 −
H:oi ∈ (1 – l)F + lG,其中i = 1, 2, …, n
偏移备择分布 − 此备择假设指出,所有对象(除了某个规定的少量对象之外)都独立地来自具有参数m和s²的原始模型F,而其余对象是F的修改版本的独立观测值,其中参数已被更改。
广告