什么是关联规则学习?
关联规则学习是一种无监督学习技术,它测试一个数据元素对另一个数据元素的依赖性,并进行适当的设计,使其更具成本效益。它试图发现数据集变量之间的一些有趣的关系或关联。它依赖于各种规则来发现数据库中变量之间的有趣关系。
关联规则学习是机器学习中最重要的方法之一,它被应用于市场篮子分析、网页使用挖掘、持续生产等领域。在市场篮子分析中,它是许多大型零售商用来发现商品之间关系的一种方法。
网页挖掘可以被视为将适应性数据挖掘方法应用于互联网,尽管数据挖掘被定义为应用算法来发现主要结构化数据中的模式,并将其固定到知识发现过程中。
网页挖掘具有支持多个数据类型集合的独特属性。网络具有多个方面,为挖掘过程提供了多种方法,例如包含文本的网页、通过超链接连接的网页,以及可以通过网络服务器日志监控的用户活动。
在市场篮子分析中,通过发现客户购物篮中不同商品之间的关联来分析客户的购买习惯。通过发现此类关联,零售商可以通过分析用户经常购买哪些商品来制定营销方法。这种关联可以通过支持零售商进行选择性营销和计划货架区域来提高销售额。
关联规则学习的类型
关联规则学习有以下几种类型:
Apriori 算法 - 该算法需要频繁数据集来生成关联规则。它被设计用于处理包含事务的数据库。该算法需要广度优先搜索和哈希树来有效地计算项集。
它通常用于市场篮子分析和支持学习可以一起购买的产品。它可以用于医疗保健领域,以发现患者的药物反应。
Eclat 算法 - Eclat 算法代表等价类转换。该算法需要深度优先搜索方法来发现事务数据库中的频繁项集。它实现了比 Apriori 算法更快的执行速度。
FP-Growth 算法 - FP-Growth 算法代表频繁模式。它是 Apriori 算法的增强版本。它以树结构的形式描述数据库,称为频繁模式树。这棵频繁树旨在提取最频繁的模式。