数据挖掘中什么是单属性评估器?
在单属性评估器中,它可以与Ranker搜索方法一起使用,以创建一个排名列表,Ranker从中丢弃给定数量的项目。它也用于RankSearch方法。
Relief属性评估是基于实例的 - 它随机抽取实例并检查相同和多个类别的相邻实例。它适用于离散和连续的类数据。参数定义要采样的多个实例,要检查的各种邻居,是否按距离对邻居加权,以及一个指数函数,该函数控制权重随距离增加而衰减的方式。
信息增益属性评估 (InfoGain Attribute Eval) - 它通过计算属性关于类的信息增益来计算属性。它首先使用基于MDL的离散化方法对数值属性进行离散化。这种方法以及接下来的三种方法可以将缺失值视为独立值,或者根据其他值的频率成比例地分配计数。
卡方属性评估 (Chi-Squared Attribute Eval) - 它通过计算属性关于类的卡方统计量来计算属性。
增益率属性评估 (Gain-Ratio Attribute Eval) - 它通过计算属性关于类的增益率来计算属性。
对称不确定性属性评估 (Symmetrical Uncert-Attribute Eval) - 它通过计算属性关于类的对称不确定性来计算属性。
OneR属性评估 (OneRAttribute Eval) - 它需要OneR分类器采用的精度度量。它可能需要训练数据进行计算(就像OneR一样),或者可以使用内部交叉验证——多个折叠是一个参数。它可以选择OneR的简单离散化方法——最小桶大小是一个参数。
支持向量机属性评估 (SVM-Attribute Eval) - 它使用具有线性支持向量机的递归特征消除来计算属性。根据其系数的大小,一次选择一个属性,在每次选择后重新学习。
实际上,可以使用一定比例的属性,直到剩余一定数量的属性为止,然后迅速切换到固定数量的方法,快速消除许多属性,然后更深入地考虑每个剩余属性。
各种参数被传递给支持向量机——复杂度、epsilon、容差和使用的过滤方法。
主成分和潜在语义分析变换属性集。对于主成分,新属性按其特征值排序。可以选择一个子集,方法是选择足够的特征向量来解释给定比例的方差(默认为95%)。最后,可以将简化后的数据转换回原始空间。
潜在语义分析将奇异值分解应用于训练数据。奇异值分解与主成分分析相关——两者都产生作为原始属性值的线性组合的方向,但不同之处在于它是从包含原始数据值的矩阵而不是属性相关性或协方差矩阵计算出来的。