离群值检验是如何工作的？

数据挖掘数据库数据结构

统计离群值检验分析两个假设：工作假设和备择假设。工作假设H是一个陈述，即n个对象的整个数据集都来自初始分布模型F，即H：o_i ∈ F，其中i = 1, 2, …, n。

如果没有统计上重要的证据支持其拒绝，则保留该假设。离群值检验检查对象o_i相对于分布F是否本质上很大（或很小）。基于对数据的可用知识，已经提出了不同的检验统计量作为离群值检验。

假设已经为离群值检验选择了一些统计量T，并且对象o_i的统计量值为v_i，则构造T的分布。计算显著性概率SP(v_i) = Prob(T > v_i)。

如果某个SP(v_i)足够小，则o_i是离群值，并且拒绝工作假设。采用另一种假设，该假设指出o_i来自另一个分布模型G。结果很大程度上取决于选择哪个F模型，因为o_i在一个模型下可能是异常值，而在另一个模型下却是完全有效的值。

备择分布对于决定检验的功效（即当o_i为异常值时拒绝工作假设的概率）非常重要。有几种类型的备择分布。

固有备择分布 − 在这种情况下，所有对象都来自分布F的工作假设被另一个假设所取代，即所有对象都来自另一个分布G −

H：o_i ∈ G，其中i = 1, 2, …, n

F和G可以是不同的分布，或者仅在同一分布的参数上有所不同。对G分布的形式有一些约束，因为它应该有可能产生异常值。例如，它可以具有不同的均值或离散度，或者具有长尾。

混合备择分布 − 混合备择假设指出，离群值不是F总体中的异常值，而是来自其他一些总体的污染。在这种情况下，备择假设是 −

H：o_i ∈ (1 – l)F + lG，其中i = 1, 2, …, n

偏移备择分布 − 此备择假设指出，所有对象（除了某个规定的少量对象之外）都独立地来自具有参数m和s²的原始模型F，而其余对象是F的修改版本的独立观测值，其中参数已被更改。

Ginni

更新于：2021年11月24日

330 次浏览

启动你的职业生涯

完成课程获得认证

广告

© . All rights reserved.