查找数据集中的异常值



介绍

异常值是不符合其余数字模式的数据点。它们是数据集中极高或极低的数值。

查找异常值的一种简单方法是检查数据集中的数字。我们会看到大多数数字都聚集在一个范围内,而有些数字与其余数字相比过低或过高。这些数字被称为异常值。

异常值的另一种定义

与其余数据明显分离的数据点。异常值的一种定义是任何数据点小于第一四分位数1.5个四分位距(IQR)或大于第三四分位数1.5个四分位距的数据点。四分位距(IQR)是数据集的第三四分位数与第一四分位数的差。

示例1

查找数据0、2、5、6、9、12、35中的异常值。

解答

对于给定的数据集,我们有以下五数概括。

最小值 = 0

第一四分位数 = 2

中位数 = 6

第三四分位数 = 12

最大值 = 35

IQR = 12 – 2 = 10,所以1.5·IQR = 15。

要确定是否存在异常值,我们必须考虑超出四分位数1.5·IQR或15的数字。

第一四分位数 – 1.5·IQR = 2 – 15 = –13

第三四分位数 + 1.5·IQR = 12 + 15 = 27

由于35在-13到27的区间之外,因此35是该数据集中的异常值。

示例2

查找下面给定数据集中的异常值。

28, 26, 29, 30, 81, 32, 37

解答

步骤1

与给定集中其他数字不同的数据是81

步骤2

因此,该数据集的异常值是81

示例3

查找下面给定数据集中的异常值。

16, 14, 3, 12, 15, 17, 22, 15, 52

解答

步骤1

与给定集中其他数字不同的数据是52

步骤2

因此,该数据集的异常值是52

广告