什么是数据特征?
以下是强烈影响聚类分析的数据的一些特征:
高维性——在高维数据集里,传统的欧几里得密度概念(单位体积内的点数)变得非常重要。可以认为,随着维数的增加,体积呈指数增长,除非点数也随维数呈指数增长,否则密度趋于0。
它还会导致高维空间中的距离趋于均匀。另一种考虑这一事实的方法是,有更多维度(属性)影响两点之间的距离,这使得距离趋于更加均匀。
因为大多数聚类技术都依赖于距离或密度,所以它们在处理高维数据时可能会有困难。解决此类问题的一种方法是采用降维方法。
规模——一些在小型或中型数据集上运行良好的聚类算法无法处理更大的数据集。
稀疏性——稀疏数据包含非对称属性,其中零值不如非零值重要。因此,通常使用适合非对称属性的相似性度量。
噪声和离群值——一个异常点(离群值)会严重降低聚类算法的性能,特别是基于原型的算法,例如K均值算法。换句话说,噪声会导致某些算法(例如单链接算法)将不应该合并的聚类合并在一起。
通常,在使用聚类算法之前会先使用去除噪声和离群值的算法。此外,某些算法可以在聚类阶段识别定义噪声和离群值的点,然后将其移除或以其他方式消除其负面影响。
属性和数据集的类型——数据集可以有多种类型,包括结构化、图或有序数据,而属性可以是分类的(名义或序数)或定量的(区间或比率),并且可以是二元、离散或连续的。
多种距离和密度度量适用于多种类型的数据。在许多情况下,可能需要对数据进行离散化或二值化,以便可以使用所需的距离度量或聚类算法。
当属性类型多种多样时,例如连续型和名义型,会出现另一个困难。在这种情况下,距离和密度更难以定义,并且更加特例化。最后,可能需要特定的数据结构和算法来有效地处理某些类型的数据。
尺度——诸如身高和体重之类的多个属性,可以使用不同的尺度进行测量。这些差异会强烈影响两个对象之间的距离或相似性,进而影响聚类分析的结果。考虑根据以米为单位计算的身高和以千克为单位计算的体重对一组人进行聚类。