什么是统计方法?


统计方法是基于模型的方法,例如为数据生成一个模型,并根据对象与模型的拟合程度计算对象。大多数用于异常值检测的统计方法都依赖于开发概率分布模型,并考虑对象低于该模型的可能性。

异常值是指相对于数据概率分布模型而言概率低的对象。概率分布模型是通过计算用户定义分布的参数从数据中生成的。

如果数据被认为具有高斯分布,则可以通过计算数据的均值和标准差来测量基本分布的均值和标准差。可以计算每个对象低于分布的概率。

已经设计出一种广泛的基于统计检验的方法来识别异常值,或者像统计文献中所说的那样,识别不一致的观察值。其中一些不一致性检验非常专业,并且需要超出本文范围的统计知识水平。

识别数据集的特定分布 - 虽然几种类型的数据可以通过少量常见分布(包括高斯、泊松或二项式)来定义,但具有非标准分布的数据集也很常见。当然,如果选择了错误的模型,则可能错误地将对象识别为异常值。

例如,数据可以建模为来自高斯分布,但可能来自一个分布,该分布具有比高斯分布更大的概率接收远离均值的数值。具有此类行为的统计分布在实践中很常见,称为重尾分布。

使用的属性数量 - 一些统计异常值检测技术用于单个属性,但一些技术已被应用于多元数据。

分布的混合 - 数据可以建模为分布的组合,并且可以基于此类模型生成异常值检测方案。尽管可能更具动态性,但此类模型在学习和使用方面都比较复杂。例如,需要识别早期的对象才能将其定义为异常值。

异常值检测的统计方法具有坚实的基础,并且构建在标准统计技术之上,包括计算分布的参数。当对数据和必须使用的测试类型有充分的了解时,这些测试可以非常有效。对于单个属性,存在多种统计异常值检验方法。对于多元数据,可用的选项较少,并且这些检验在高维记录中可能执行不佳。

更新于: 2022年2月14日

2K+ 次查看

启动您的 职业生涯

通过完成课程获得认证

开始
广告

© . All rights reserved.