查找数据集中的异常值
介绍
异常值是不符合其余数字模式的数据点。它们是数据集中极高或极低的数值。
查找异常值的一种简单方法是检查数据集中的数字。我们会看到大多数数字都聚集在一个范围内,而有些数字与其余数字相比过低或过高。这些数字被称为异常值。
异常值的另一种定义
与其余数据明显分离的数据点。异常值的一种定义是任何数据点小于第一四分位数1.5个四分位距(IQR)或大于第三四分位数1.5个四分位距的数据点。四分位距(IQR)是数据集的第三四分位数与第一四分位数的差。
示例1
查找数据0、2、5、6、9、12、35中的异常值。
解答
对于给定的数据集,我们有以下五数概括。
最小值 = 0
第一四分位数 = 2
中位数 = 6
第三四分位数 = 12
最大值 = 35
IQR = 12 – 2 = 10,所以1.5·IQR = 15。
要确定是否存在异常值,我们必须考虑超出四分位数1.5·IQR或15的数字。
第一四分位数 – 1.5·IQR = 2 – 15 = –13
第三四分位数 + 1.5·IQR = 12 + 15 = 27
由于35在-13到27的区间之外,因此35是该数据集中的异常值。
示例2
查找下面给定数据集中的异常值。
28, 26, 29, 30, 81, 32, 37
解答
步骤1
与给定集中其他数字不同的数据是81
步骤2
因此,该数据集的异常值是81