异常的成因是什么?
在异常检测中,目标是发现与多个对象不同的对象。通常,异常对象被称为离群值,因为在数据的散点图上,它们远离多个数据点。异常检测被称为偏差检测,因为异常对象具有与预期或一般属性值本质上不同的属性值,或者作为异常值挖掘,因为异常在多种意义上是异常的。
在全球、人类社会或数据组的领域,大多数事件和对象在表示上都是常见的区域或规则的。但它可以对不同或非凡的对象的可行性有敏锐的了解。这包括异常干燥或多雨的季节、受欢迎的运动员,或比所有其他运动员都小或高的属性值。
异常的一些原因如下:
来自不同类别的的数据 - 一个对象可能与多个对象不同,例如异常,因为它属于多个类型或类别。例如,某人犯信用卡欺诈属于比那些准确需要信用卡的人不同的信用卡用户类别。
一些显示的例子,如欺诈、入侵、疾病爆发和异常测试结果,是定义不同类别元素的异常的实例。此类异常非常重要,并且是数据挖掘领域中异常识别目标。
自然变化 - 一些数据集可以通过统计分布建模,包括正态(高斯)分布,其中数据对象的概率随着对象与分布中心的距离增加而逐渐降低。
换句话说,一些对象靠近中心(平均对象),并且对象与该平均对象本质上不同的可能性很小。例如,一个异常高的人在来自独立对象类别的方法上并不是异常的,而只是在具有某些对象消耗的特征(身高)的完整值的方法上是异常的。定义严重或不可能变化的异常很有趣。
数据测量和收集错误 - 数据集或测量过程中的错误是异常的另一个原因。例如,由于人为错误、计算设备问题或噪声的存在,测量结果可能记录不正确。
目标是消除此类异常,因为它们不支持任何有趣的数据,只会降低数据的特征和后续的数据分析。实际上,删除此类异常是数据预处理,特别是数据清洗的目标。
广告