异常值检测的方法有哪些?


异常值检测的方法多种多样,如下所示:

监督方法 - 监督方法对数据的正常性和异常性进行建模。领域专业人员测试并标记基本数据样本。异常值检测可以建模为分类问题。目的是理解能够识别异常值的分类器。

该样本可用于训练和测试。在各种应用中,专业人员可以仅标记正常对象,并且一些不符合正常对象模型的对象被记录为异常值。有不同的方法对异常值进行建模,并将不符合异常值模型的对象视为正常。

无监督方法 - 在各种应用方法中,标记为“正常”或“异常值”的对象不适用。因此,必须使用无监督学习方法。无监督异常值检测方法创建了一个隐式假设,例如正常对象被相当“聚集”。

无监督异常值检测方法预测正常对象遵循的模式比异常值更普遍。正常对象不必下降到一个具有高度相似性的团队中。相反,它们可以形成多个组,其中每个组具有多个特征。

这种假设有时不成立。正常对象不会发送一些强模式。相反,它们是均匀分布的。集体异常值在较小的区域内具有高度相似性。

无监督方法无法有效地识别此类异常值。在某些应用中,正常对象是分别分布的,并且一些对象不遵循强模式。例如,在一些入侵检测和计算机病毒检测问题中,正常活动是不同的,并且一些活动不会下降到高质量的集群中。

一些聚类方法可以被改编为促进作为无监督异常值检测方法。主要思想是首先发现聚类,因此不属于某些聚类的数据对象被识别为异常值。但是,此类方法会因两个问题而恶化。首先,不属于某个聚类的数据对象可能是噪声而不是异常值。其次,首先发现聚类然后发现异常值成本很高。

半监督方法 - 在一些应用中,虽然获得一些标记的实例是可能的,但此类标记实例的数量很少。它可能遇到只有少量正常和异常值对象被标记的情况,但一些数据未标记。半监督异常值检测方法是为了解决此类方法而产生的。

半监督异常值检测方法可以被认为是半监督学习方法的应用。例如,当一些标记的正常对象可用时,它可以将它们与附近的未标记对象一起使用,以训练正常对象的模型。正常对象的模型用于识别异常值 - 那些不适合正常对象模型的对象被定义为异常值。

更新于: 2022年2月18日

13K+ 浏览量

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告