什么是多关系数据挖掘?
多关系数据挖掘 (MRDM) 方法搜索包含关系数据库中多个表(关系)的设计。每个表或关系都表示一个实体或关系,由一组属性描述。关系之间的链接显示它们之间的关系。
一种应用传统数据挖掘方法(假设数据驻留在单个表中)的方法是命题化,它使用连接和聚合将多个关系数据转换为单个扁平数据关系。
这可能导致生成一个巨大的、不希望的“通用关系”(包含所有属性)。此外,它还可能导致信息丢失,包括数据库设计中链接所表示的重要语义信息。
多关系数据挖掘旨在直接从关系数据中发现知识。存在不同的多关系数据挖掘功能,例如多关系分类、聚类和频繁模式挖掘。
多关系分类的优势在于构建一个利用不同关系中信息的分类模型。多关系聚类旨在使用其属性以及与它们在不同关系中相关的元组将元组分组为集群。多关系频繁模式挖掘旨在查找涉及不同关系中互连项目的模式。它可以首先使用多关系分类来说明多关系数据挖掘的目的和过程。
在用于多关系分类的数据库中,存在一个目标关系 Rt,其元组称为目标元组,并与类标签相关。其他关系是非目标关系。每个关系可以有一个主键(唯一识别关系中的元组)和几个外键(一个关系中的主键可以连接到另一个关系中的外键)。
如果可以考虑一个两类问题,则可以选择一类作为正类,另一类作为负类。构建准确的多关系分类器的服务是查找不同关系中的相关特征,以帮助对正目标元组和负目标元组进行分类。
多关系分类中最流行的假设形式是规则集。每个规则都是谓词列表(逻辑合取),与类标签相关联。谓词是对关系中属性的约束。谓词通常基于某个连接路径定义。当且仅当目标元组满足规则的每个谓词时,它才满足该规则。
广告