异常值是如何计算的?
有三种度量被用作异常指标,以支持识别数据异常。这些度量表示单元格中数量的影响程度,相对于其预期值。
这些度量被计算并与每个单元格关联,用于所有聚合级别。它们如下所示,包括 SelfExp、InExp 和 PathExp 度量基于数值方法进行表格分析。
单元格值被视为异常取决于它与预期值的差异程度,其中其预期值由统计模型决定。给定单元格值与其预期值之间的差异称为残差。
直观地,残差越高,提供的单元格值越可能是异常。残差值的比较要求我们根据与残差相关的预期标准偏差对值进行缩放。因此,如果单元格值的缩放残差值超过预先指定的阈值,则将其视为异常。
SelfExp、InExp 和 PathExp 度量基于此缩放残差。给定单元格的预期值是提供单元格的更高级别分组的函数。例如,给定一个具有三个维度 A、B 和 C 的多维数据集,在 A 的第 i 个位置、B 的第 j 个位置和 C 的第 k 个位置的单元格的预期值是 γ、γAi、γBj、γCk、γABij、γACik 和 γBCjk 的函数,它们是所用数值模型的系数。
这些系数遵循更高级别上值的差异方式,这取决于通过查看更高级别聚合形成的广义印象。在这种方法中,单元格值的异常质量取决于其后值的异常。因此,在查看异常时,用户必须通过向下钻取来分析异常。
此计算包括三个阶段,如下所示 -
第一步包括计算定义多维数据集的聚合值,包括总和或计数,在此基础上将发现异常。
第二阶段包括模型拟合,其中确定系数并用于计算标准化残差。此阶段可以与第一阶段重叠,因为计算相同。
第三阶段根据标准化残差计算 SelfExp、InExp 和 PathExp 值。此阶段在计算上等效于阶段 1。因此,可以有效地完成用于发现驱动探索的数据多维数据集的计算。
广告