数据挖掘中的离群值类型有哪些?
数据挖掘中存在各种类型的离群值,如下所示:
全局离群值 - 在给定的数据集中,如果一个数据对象与其余信息集存在本质上的偏差,则它就是一个全局离群值。全局离群值被称为点异常,是最容易识别的离群值类型。大多数离群值检测方法都旨在发现全局离群值。
识别全局离群值的一个重要问题是找到一个与所讨论的应用程序相关的适当偏差度量。已经提出了几种度量方法,并且根据这些度量方法,离群值检测方法被划分为多个类别。
全局离群值检测在许多应用中至关重要。例如,考虑计算机网络中的入侵检测,如果计算机的通信行为与正常模式不同(例如,在短时间内发送大量数据包),则此行为可以被视为全局离群值,相应的计算机被怀疑受到黑客攻击。
上下文离群值 - 上下文离群值也称为条件离群值。如果一个数据对象由于给定数据集中某个特定条件而偏离多个数据点,则会出现此类离群值。
数据对象具有两种类型的属性:上下文属性和行为属性。上下文离群值分析允许用户在多个上下文和条件下确定离群值,这在许多应用程序中可能是有益的。
在行为属性中,它可以表示对象的特征,并用于计算对象在其所属的上下文中是否为离群值。例如,在温度的情况下,行为属性可以是温度、湿度和压力。
上下文离群值是局部离群值的一种概括,局部离群值的概念是在基于密度的离群值分析方法中引入的。如果数据集中的一个对象的密度与其出现位置的局部区域存在本质上的偏差,则该对象就是一个局部离群值。
全局离群值检测可以被认为是上下文离群值检测的一种特殊方法,其中上下文属性组为空。换句话说,全局离群值检测需要将整个数据集作为上下文。上下文离群值分析为用户提供了灵活性,可以确定多个上下文中的离群值,这在许多应用程序中可能是可取的。
集体离群值 - 在给定的数据集中,当一组数据点偏离其余信息集时,称为集体离群值。因此,单独的特定数据对象可能不是离群值,但当考虑这些数据对象作为一个整体时,它们可以表现为离群值。
要识别多种类型的离群值,需要了解多个数据对象显示的离群值行为之间的关系的背景数据。