异常检测的挑战有哪些?
异常检测存在各种问题,如下所示:
用于定义异常的属性数量 - 一个对象是否异常取决于单个属性,即该对象的该属性值是否异常。因为一个对象可以有多个属性,它可以对多个属性具有异常值,但对多个属性具有普通值。
此外,即使对象的任何属性值本身并非异常,该对象也可能仍然是异常的。例如,身高两英尺(儿童)或体重300磅的人很常见,但身高两英尺体重300磅的人则异常。
异常的描述应该定义如何使用多个属性的值来决定一个对象是否为异常。当数据的维度很大时,这是一个关键问题。
全局视角与局部视角 - 一个对象相对于所有对象可能显得异常,但相对于其局部邻域中的对象则可能不异常。例如,一个身高6英尺5英寸的人相对于普通人群来说非常高,但相对于职业篮球运动员来说则不异常。
点异常的程度 - 一些方法以二元方式记录对对象是否为异常的评估:一个对象是异常的或不是异常的。通常,这并不能反映基本现实,即有些对象比其他对象更明显的异常。因此,对对象异常程度进行多级评估非常有意义。此评估称为异常分数或离群值分数。
一次识别一个异常与一次识别多个异常 - 在某些方法中,异常被逐个消除;即,识别并去除最异常的样本,然后重复此过程。对于许多技术,则会同时识别出一组异常。
尝试一次识别一个异常的技术通常会遇到一个称为“掩蔽”的问题,其中多个异常的存在掩盖了所有异常的存在。换句话说,同时识别多个异常的技术可能会遇到“淹没”的问题,其中正常对象被定义为异常值。在基于模型的方法中,这些效应可能出现是因为异常改变了数据模型。
效率 - 各种异常检测方案的计算成本存在显著差异。基于分类的方案可能需要大量的资源来构建分类模型,但通常使用起来成本低廉。同样,统计方法会生成统计模型,并且可以在恒定时间内对元素进行分类。
广告