从关系数据库和数据仓库中挖掘多维关联规则是什么?
关联规则学习是一种无监督学习技术,它测试一个数据元素对另一个数据元素的依赖性并进行相应映射,以便使其更具商业价值。它试图发现数据集变量之间的一些有趣的关系或关联。它依赖于几条规则来查找数据库中变量之间的有趣关系。
关联规则学习是机器学习的基本概念,它被应用于市场篮分析、Web使用挖掘、持续生产等。因此,市场篮分析是许多大型零售商用来查找项目之间关联的方法。
在市场篮分析中,通过查找客户放入购物篮的不同商品之间的关联来分析客户的购买习惯。
通过发现这些关联,零售商可以通过分析客户通常购买哪些商品来制定营销策略。这种关联可以通过支持零售商进行选择性营销和规划货架区域来提高销售额。
多级关联的流行应用领域是市场篮分析,它通过搜索经常一起购买的商品集来研究客户的购买习惯,这在概念层次结构的概念中有所体现。
具有两个或多个维度或谓词的关联规则可以称为多维关联规则。例如:
年龄 (X, "20...29") ^ 职业 (X,"学生") => 购买 (X,"笔记本电脑")
此规则包含三个谓词(年龄、职业和购买),每个谓词在规则中只出现一次,此类规则称为跨维度关联规则。具有重复谓词或包含某些谓词多次出现的规则称为混合维度关联规则。
例如:
年龄 (X, "20...29") ^ 购买 (X,"笔记本电脑") => 购买 (X,"打印机")
数据库属性应该是分类的或定量的。
分类属性具有有限数量的可能值,这些值之间没有顺序,也称为名义属性。
定量属性是数值型的,并且在值之间存在隐含的排序。关于定量属性的处理,有三种基本方法:
第一种方法是在挖掘之前使用预定义的概念层次结构对定量属性进行离散化。具有其范围值的离散化数值属性可以被视为分类属性。
第二种方法是根据数据的分布将定量属性分类到区间中。这些区间可以在挖掘过程中进一步组合。因此,离散化过程是动态的和已建立的。
第三种方法是对定量属性进行离散化以捕捉此类区间数据的语义含义。这种强大的离散化阶段处理了数据点之间的距离。