关联规则聚类系统涉及哪些步骤?


关联规则聚类系统涉及以下步骤:

分箱 - 定量属性可以具有一系列广泛的值来表示其域。可以考虑一下,如果将年龄和收入作为轴绘制,那么一个二维网格会有多大,其中年龄的每个可能值都在一个轴上创建了一个特定位置,同样,收入的每个可能值都在另一个轴上创建了一个特定位置。

可以将网格保持在可管理的大小,可以将定量属性的区域划分为区间。这些区间功能强大,因为它们可以在挖掘阶段合并。分区阶段定义为分箱,即区间被视为“箱”。

有三种常见的分箱策略:

等宽分箱 - 在等宽分箱中,每个箱的区间大小相同。

等频分箱 - 在等频分箱中,每个箱分配的大约元组数量相同。

基于聚类的分箱 - 在基于聚类的分箱中,对定量属性执行聚类,以将相邻点(根据各种距离度量判断)分组到同一箱中。

ARCS 需要等宽分箱,其中每个定量属性的箱大小由用户输入。生成一个二维数组,用于每个可能的箱组合,包括两个定量属性。

每个数组单元格都会影响规则右侧每个可实现的分类属性类的对应计数分布。通过构建这种数据结构,只需要扫描一次任务相关数据。相同的二维数组可用于生成某些分类属性值的规则,具体取决于相同的两个定量属性。

查找频繁谓词集 - 由于设置了包含每个类别的计数分布的二维数组,因此可以扫描它以发现频繁谓词集(满足最小支持的谓词集),这些谓词集也满足最小置信度。

该算法检查网格,寻找规则的矩形簇。在这种方法中,可以组合出现在规则簇内的定量属性的箱,因此会出现定量属性的动态离散化。

网格方法描述了原始关联规则可以聚类成矩形区域。在实现聚类之前,可以使用平滑方法来提供去除记录中的噪声和异常值。矩形簇可能会过度简化信息。

已建议使用非网格方法来发现更通用的定量关联规则,其中可以在规则的两侧出现多个定量和分类属性。

在这种方法中,使用相同频率分箱动态隔离定量属性,并且根据部分完整性度量组合分区,该度量量化了由于分区而丢失的数据。

更新于: 2022年2月16日

1K+ 浏览量

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告