什么是异常值?
异常值是指与其余对象显著不同的数据对象,就好像它是由不同的机制产生的。为方便表达,可以将非异常值数据对象定义为“正常”或预期信息。通常,可以将异常值定义为“异常”数据。
异常值是无法归入特定类别或集群的数据组件。这些数据对象的行为与其他数据对象的通常行为有所不同。对这类数据的分析对于知识挖掘非常重要。
异常值与噪声信息不同。噪声是计算变量中的随机错误或方差。通常,噪声在数据分析中并不重要,例如异常值检测。
例如,在信用卡欺诈检测中,用户的购买行为可以建模为随机变量。用户可能会进行一些“噪声交易”,这些交易看起来像“随机错误”或“方差”,例如某一天购买了更丰盛的午餐,或者比平时多喝了一杯咖啡。
此类交易不应被视为异常值;因此,信用卡公司可能会因为验证某些交易而产生高昂的成本。公司也可能因为多次发出错误警报而流失用户。与许多数据分析和数据挖掘服务一样,必须在异常值检测之前消除噪声。
一些真实世界数据库包含异常值或缺失、匿名或错误的数据。一些聚类算法对这类数据很敏感,可能会生成质量较差的集群。
异常值之所以重要,是因为它们被怀疑并非由与其余数据相同的结构产生。因此,在异常值检测中,必须解释为什么所识别的异常值是由不同的机制产生的。
这是通过对其余信息做出各种假设并证明检测到的异常值显著违反这些假设来实现的。异常值检测还与包括数据集合中的新颖性检测相关。例如,通过观察一个不断出现新内容的社交媒体网站,新颖性检测可以及时识别新的主题和趋势。
新颖的主题最初可能表现为异常值。异常值检测和新颖性检测在建模和检测方法上有一些相似之处。但两者之间的一个关键区别在于,在新颖性检测中,一旦确认了新的主题,它们通常会被整合到一般行为模型中,以便后续实例不再被视为异常值。
广告