为什么需要进行分析性特征描述和属性相关性分析,以及如何进行这些分析?
这是一种用于预处理数据的统计方法,用于过滤掉不相关的属性或对相关属性进行排序。属性相关性分析的度量可用于识别概念描述过程中可以被取消授权的不相关属性。将此预处理步骤纳入类特征描述或比较中被定义为分析性特征描述。
数据区分创建区分规则,即比较目标类和对比类之间对象的一般特征。
它是将目标类数据对象的一般特征与来自一个或一组对比类对象的的一般特征进行比较。用户可以定义目标类和对比类。用于数据区分的方法与用于数据特征描述的方法非常相似,区别在于数据区分结果包括比较度量。
属性相关性分析的原因
属性相关性分析有以下几个原因:
它可以决定哪些维度必须包含在内。
它可以产生高度的概括性。
它可以减少支持我们轻松读取模式的属性数量。
属性相关性分析背后的基本概念是评估一些可以计算属性相对于给定类或概念的相关性的度量。此类度量包括信息增益、模糊性和相关系数。
概念描述的属性相关性分析实现如下:
**数据收集** - 它可以通过查询处理收集目标类和对比类的的数据。
**使用保守的AOI进行初步相关性分析** - 此步骤识别一组要使用所选相关性度量的维度和属性。
AOI可用于通过消除具有大量不同值的属性来对数据进行初步分析。它可以是保守的,实施的AOI应采用设置得相当大的属性泛化阈值,以使更多属性能够通过所选度量在进一步的相关性分析中得到处理。
**移除** - 此过程使用所选的相关性分析度量去除不相关和弱相关的属性。
**使用AOI生成概念描述** - 它可以使用一组不太保守的属性泛化阈值来实现AOI。如果描述性挖掘功能是类特征描述,则现在仅包含原始目标类工作关系。
如果描述性挖掘功能是类特征描述,则仅包含原始目标类工作关系。如果描述性挖掘功能是类特征描述,则仅包含原始目标类工作关系。如果描述性挖掘功能是类比较,则包含原始目标类工作关系和原始对比类工作关系。