关联模式的评估是什么?


关联分析算法有可能生成大量的模式。例如,尽管数据集仅包含六个项目,但在特定支持度和置信度阈值下,它可以创建多达数千条关联规则。由于实际货币数据库的大小和维数可能很大,因此它们很容易最终产生数千甚至数百万个模式,其中一些可能不有趣。

通过模式识别最有趣的模式是项非平凡的任务,因为一个人的垃圾可能是另一个人的宝藏。创建一套公认的方法来计算关联模式的质量至关重要。

第一套标准可以通过统计论证来创建。包含一组相互独立的项目或涵盖多个事务的模式被视为无趣,因为它们可能会在数据中产生虚假的关联。

可以使用客观趣味性部分来删除此类模式,该部分使用从数据中派生的统计数据来确定模式是否有趣。客观趣味性度量的示例,例如支持度、置信度和相关性。

第二套标准可以通过主观论证来创建。除非模式承认有关数据意想不到的数据或支持可能导致有利服务的知识,否则该模式被视为主观上无趣。

例如,规则{黄油}→{面包}可能并不有趣,无论其支持度和置信度值有多高,因为规则定义的关系看起来相当明显。

另一方面,规则{尿布}→{啤酒}很有趣,因为这种关系是出乎意料的,并且可以为零售商提供新的交叉销售机会。将主观知识纳入模式计算是一项复杂的任务,因为它需要大量来自领域专家的先前数据。

以下是将偏置知识纳入模式发现任务的几种方法,如下所示:

可视化 - 这种方法需要一个用户友好的环境来保持人工用户参与循环。它还使领域专家能够通过执行和测试发现的模式来连接到数据挖掘系统。

基于模板的方法 - 这种方法使用户能够约束挖掘算法复制的模式类型。与其记录所有提取的规则,不如只将需要用户指定模板的规则恢复给用户。

主观趣味性度量 - 可以根据包括概念层次结构或元素增益限制在内的领域知识来表示主观度量。该度量可用于过滤可访问且不可操作的模式。

更新时间: 2022年2月11日

1K+ 次查看

启动您的 职业生涯

通过完成课程获得认证

开始
广告