什么是AOI?
AOI代表属性导向归纳(Attribute-Oriented Induction)。属性导向归纳的概念描述方法最早于1989年提出,比数据立方体方法的引入早几年。数据立方体方法基本上是基于数据的物化视图,这些视图通常已在数据仓库中预先计算。
一般来说,它在提交OLAP或数据挖掘查询进行处理之前实现离线聚合。换句话说,属性导向归纳方法通常是一种面向查询的、基于泛化的在线数据分析方法。
属性导向归纳的基本思想是首先使用数据库查询收集与任务相关的数据,然后根据相关数据集中每个属性的不同值的数量进行泛化。
泛化是通过属性移除或属性泛化来实现的。聚合是通过组合相同的泛化元组并累积其特定计数来实现的。这减少了泛化数据集的大小。生成的泛化关联可以映射成多种形式呈现给用户,包括图表或规则。
属性导向归纳的过程如下:
首先,在属性导向归纳之前必须实现数据聚焦。此步骤对应于任务相关记录的描述(即,要分析的数据)。数据是基于数据挖掘查询中支持的数据收集的。
因为数据挖掘查询通常只与数据库的一部分相关,所以选择相关的数据集不仅使挖掘更高效,而且比挖掘整个数据库产生更重要的结果。
指定相关属性集(即,挖掘属性,如DMQL中的“in relevance to”子句所示)可能对用户来说很困难。用户可能只选择一些重要的属性,而忽略了其他也可能在表示中发挥作用的属性。
例如,假设维度“出生地址”由属性“城市”、“省份或州”和“国家”定义。如果允许对“出生地址”维度进行泛化,则定义此维度的其他属性也应包含在内。
换句话说,让系统自动将“省份或州”和“国家”作为相关属性,可以在归纳阶段将“城市”泛化到这些更大的概念级别。
在另一个极端,假设用户可能通过使用子句“in relevance to *”指定所有可能的属性而引入了太多属性。在这种情况下,from子句中指定的关联中的所有属性都将包含在分析中。
有些属性不太可能对有趣的表示做出贡献。可以使用基于相关性或基于熵的分析方法来执行属性相关性分析,并从描述性挖掘过程中过滤掉统计上无关或弱相关的属性。