什么是基于约束的关联挖掘?
数据挖掘过程可以从给定的信息集中挖掘出数千条规则,其中大部分规则最终对用户来说是独立的或乏味的。用户最了解哪种挖掘“方向”可以导致有趣的模式,以及他们希望发现的模式或规则的“形式”。
因此,一个好的启发式方法是让用户将这种直觉或期望定义为约束,以约束搜索空间。这种策略称为基于约束的挖掘。
基于约束的算法需要约束来减少频繁项集生成步骤中的搜索区域(关联规则生成步骤与穷举算法相同)。
一般约束是最小支持阈值。如果一个约束不受控制,则将其包含在挖掘阶段可以支持显着减少探索空间,因为在搜索空间格中定义了一个边界,在此之后不需要探索。
约束的重要性是明确的——它们仅创建对用户有吸引力的关联规则。该方法非常简单,并且规则空间减少了,从而使其余方法满足约束。
基于约束的聚类发现满足用户定义的偏好或约束的聚类。它取决于约束的特征,基于约束的聚类可以采用相当不同的方法。
约束可以包括以下内容:
知识类型约束 - 这些定义要挖掘的知识类型,包括关联或相关性。
数据约束 - 这些定义任务相关信息集,例如维度/级别约束 - 这些定义信息所需的维度(或属性),或概念层次结构的方法,用于挖掘。
有趣性约束 - 这些定义规则有趣性的数值度量的阈值,包括支持度、置信度和相关性。
规则约束 - 这些定义要挖掘的规则的形式。此类约束可以定义为元规则(规则模板),作为规则前件或后件中可以出现的谓词的最大或最小数量,或作为属性、属性值和/或聚合之间的关系。
可以使用高级声明式数据挖掘查询语言和用户界面来描述以下约束。这种形式的基于约束的挖掘使用户能够定义他们希望发现的规则,从而使数据挖掘过程更有效率。
此外,可以使用复杂的挖掘查询优化器来处理用户定义的约束,从而使挖掘过程更有效。基于约束的挖掘促进了交互式探索性挖掘和分析。
广告