什么是发现驱动式探索?


发现驱动式探索是一种立方体探索方法。在发现驱动式探索中,预先计算的指示数据异常的度量用于在数据分析过程中指导用户,在所有聚合级别上。它将这些度量称为异常指标。

直观地说,异常是指与基于统计模型的预期值存在显著差异的数据立方体单元格值。该模型处理了度量值在所有应用于单元格的维度上的变化和模式。

例如,如果对商品销售数据的分析确认与几个月相比,12 月份的销售额有所增加,这在时间维度上可以被视为异常。但是,如果考虑商品维度,则它不是异常,因为12 月份其他商品的销售额也有类似的增长。

该模型处理数据立方体某些聚合分组中的未知异常。视觉线索(包括背景颜色)用于根据预先计算的异常指标跟踪每个单元格的异常程度。

三个度量用作异常指标,以提供识别数据异常的功能。这些度量表示单元格中数量相对于其预期值的影响的惊讶程度。这些度量针对所有聚合级别计算并与每个单元格相关联。它们如下所示:

SelfExp - 这表示单元格值相对于相同聚合级别的其他单元格的惊讶程度。

InExp - 这表示如果可以从中向下钻取,则单元格下方某个位置的惊讶程度。

PathExp - 这表示从单元格到每个向下钻取路径的惊讶程度。

例如,假设您想分析 AllElectronics 每月的销售额与上个月的百分比差异。包含的维度是商品、时间和区域。

要查看异常指标,您需要单击屏幕上标记为“突出显示异常”的按钮。这会将 SelfExp 和 InExp 值解释为视觉线索,并与每个单元格一起显示。每个单元格的背景颜色取决于其 SelfExp 值。

此外,将在每个单元格周围绘制一个框,其中框的粗细和颜色是其 InExp 值的函数。粗框表示高 InExp 值。在这两种情况下,颜色越深,异常程度越高。

沿着商品进行向下钻取会导致立方体切片中显示每个商品随时间推移的销售额。它可以呈现多个不同的销售值以进行分析。可以通过按下突出显示异常按钮来显示视觉线索,从而将重点放在异常上。

更新于:2022年2月16日

907 次浏览

开启你的职业生涯

通过完成课程获得认证

立即开始
广告