统计学 - 异常值函数



在概率分布函数中,异常值是指超出数据集长度1.5倍的数字,远离下四分位数或上四分位数。具体来说,如果一个数字小于${Q_1 - 1.5 \times IQR}$或大于${Q_3 + 1.5 \times IQR}$,则它是一个异常值。

异常值由以下概率函数定义和给出

公式

${异常值数据\lt Q_1 - 1.5 \times IQR\ (或)\ \gt Q_3 + 1.5 \times IQR }$

其中 -

  • ${Q_1}$ = 第一四分位数

  • ${Q_2}$ = 第三四分位数

  • ${IQR}$ = 四分位距

示例

问题陈述

考虑一个数据集,该数据集表示8个不同学生的周期性任务计数。任务计数信息集为11、13、15、3、16、25、12和14。从学生的周期性任务计数中发现异常值数据。

解决方案

给定数据集为

111315316251214

按升序排列

311121314151625

第一四分位数的值(${Q_1}$)

${ Q_1 = \frac{(11 + 12)}{2} \\[7pt] \ = 11.5 }$

第三四分位数的值(${Q_3}$)

${ Q_3 = \frac{(15 + 16)}{2} \\[7pt] \ = 15.5 }$

下异常值范围(L)

${ Q_1 - 1.5 \times IQR \\[7pt] \ = 11.5 - (1.5 \times 4) \\[7pt] \ = 11.5 - 6 \\[7pt] \ = 5.5 }$

上异常值范围(L)

${ Q_3 + 1.5 \times IQR \\[7pt] \ = 15.5 + (1.5 \times 4) \\[7pt] \ = 15.5 + 6 \\[7pt] \ = 21.5 }$

在给定的信息中,5.5和21.5大于给定数据集中的其他值,即除了3和25之外,因为3大于5.5,而25小于21.5。

这样,我们使用3和25作为异常值。

广告

© . All rights reserved.