数据挖掘中约束的分类是什么?
基于约束的算法需要约束来减少频繁项集生成阶段的搜索空间(关联规则创建步骤与穷举算法完全相同)。
约束的重要性是明确的,它们只生成对客户有意义的关联规则。该方法非常简单,规则空间减少了,剩余规则使用这些约束。
有三种类型的约束,如下所示:
实例约束 - 实例约束定义了如何在聚类分析中对一对或一组实例进行分组。此类别中有两种类型的约束,例如:
必须链接约束 - 如果在两个对象 x 和 y 上定义了必须链接约束,则在聚类分析的输出中,x 和 y 必须分组到一个聚类中。这些必须链接约束是可传递的,即,必须链接(x, y) 和必须链接(y, z),则必须链接(x, z)。
不能链接约束 - 不能链接约束与必须链接约束相反。如果在两个对象 x 和 y 上定义了不能链接约束,则在聚类分析的输出中,x 和 y 必须属于不同的聚类。不能链接约束是可以推导的。如果不能链接(x, y),必须链接(x, x'),并且必须链接(y, y'),则不能链接(x', y')。
聚类约束 - 聚类约束对聚类定义了一个要求,可能利用聚类的属性。例如,约束可以定义聚类中的最小对象数、聚类的最大直径或聚类的形状(例如,凸形)。为分区聚类方法定义的聚类数量可以标记为聚类约束。
相似性度量约束 - 相似性度量(包括欧几里得距离)用于计算聚类分析中对象之间的相似性。在各种应用中,存在例外情况。相似性度量约束定义了相似性计算必须遵守的要求。
例如,它可以将人群聚类为广场中变化的对象,而欧几里得距离可以产生两点之间的步行距离,相似性度量约束是执行最短距离的轨迹不能穿过墙壁。
另一种对聚类约束进行分类的方法考虑了约束必须遵守的严格程度。如果破坏约束的聚类是不可接受的,则约束是硬约束。如果破坏约束的聚类不是理想的,但在找不到更好的解决方案时是可以接受的,则约束是软约束。软约束也称为偏好。