什么是区间比例变量?
区间比例变量是近似线性尺度的连续数据。例如重量和高度、经纬度坐标(例如,在对房屋进行聚类时)以及气温。使用的测量单位会影响聚类分析。
例如,将高度的数据单位从米更改为英寸,或将重量的数据单位从千克更改为磅,可能会导致几种不同的聚类结构。通常,以较小的单位定义变量会导致该变量的范围更大,因此对最终的聚类结构的影响更大。
为了避免依赖于数据单位的选择,必须对数据进行标准化。标准化测量试图为所有变量提供相同的权重。这在没有关于数据的先验知识时尤其有用。但在某些应用中,用户可能故意需要为特定变量集提供比其他变量更大的权重。例如,在对篮球运动员候选人进行聚类时,可能更倾向于为身高变量赋予更大的权重。
为了标准化数据,一种方法是将原始数据修改为无量纲变量。给定变量f的测量值,可以按如下方式实现:
计算平均绝对偏差,sf −
sf=1n(|x1f−mf|+|x2f−mf|+⋅⋅⋅+|xnf−mf|)
其中x1f … xnf是f的n个测量值,而mf是f的平均值,即mf=1n(|x1f|+|x2f|+⋅⋅⋅+|xnf|)
计算标准化测量值或z分数 −
zif=xif−mfsf
平均绝对偏差sf比标准偏差σf对离群值的影响更小。在计算平均绝对偏差时,与均值的偏差(|x1f−mf|)没有平方。
因此,离群值的影响减小了。还有其他强大的离散度度量,包括中位数绝对偏差。使用平均绝对偏差的好处是离群值的z分数不会太小;因此,离群值仍然可以检测到。
标准化在特定应用中可能有用也可能无用。因此,是否以及如何实现标准化,必须由用户决定。在标准化之后,或在特定应用中不进行标准化的情况下,通常根据每一组对象之间的距离来计算由区间比例变量定义的对象之间的差异(或相似性)。
著名的距离度量是欧几里得距离,表示为
d(i,j)=√(Xi1−Xj1)2+(Xi2−Xj2)2+...+(Xin−Xjn)2
其中i = (xi1, xi2, … xin)和j = (xj1, xj2, … xjn)是两个n维数据对象。另一个众所周知的度量是曼哈顿(或城市街区)距离,描述为
d(i,j)=|Xi1−Xj1|+|(Xi2−Xj2|+...+|(Xin−Xjn|
欧几里得距离和曼哈顿距离都满足距离函数的以下数值要求:
d(i, j) ≥ 0:距离是非负数。
d(i, i) = 0:对象到自身的距离为0。
d(i, j) = d(j, i):距离是对称函数。
d(i, j) ≤ d(i, h)+d(h, j):直接从空间中的对象i到对象j的距离不超过绕过任何其他对象h的距离(三角不等式)。