如何从高维数据中找到子空间聚类?


已经有多种方法被归类为三大类,包括子空间搜索技术、基于相关性的聚类技术和双聚类技术。

子空间搜索技术 - 子空间搜索方法在多个子空间中搜索聚类。因此,聚类是在子空间中彼此相同的对象的子集。相似性是通过传统的度量获得的,包括距离或密度。

例如,CLIQUE算法是一种子空间聚类技术。它可以在维度递增的序列中指定子空间和这些子空间中的聚类,并使用反单调性来修剪其中不可能继续存在聚类的子空间。子空间搜索技术面临的一个更大的挑战是如何有效地搜索子空间序列。

有两种方法如下:

  • 自底向上方法从低维子空间开始,只有当这些高维子空间中可能存在聚类时才搜索高维子空间。已经分析了几种修剪方法来减少需要搜索的多个高维子空间。CLIQUE 是自底向上方法的一个例子。

  • 自顶向下方法从完整空间开始,递归地搜索越来越小的子空间。只有在局部性假设的影响下,自顶向下方法才有效,这需要聚类的子空间可以通过局部邻域来确定。

基于相关性的聚类方法 - 子空间搜索方法搜索使用传统度量(如距离或密度)计算的相似性聚类,而基于相关性的方法可以找到由高级相关模型表示的聚类。

基于PCA的方法首先使用PCA(主成分分析)来改变一组新的、不相关的维度,然后在新的空间或其子空间中挖掘聚类。此外,还可以使用PCA以外的其他空间变换,包括霍夫变换或分形维数。

双聚类方法 - 在某些应用中,需要同时对对象和属性进行聚类。生成的聚类称为双聚类,并满足以下四个要求:

  • 只有一个小的对象组在一个聚类中。

  • 一个聚类只包含少量属性。

  • 一个对象可以参与多个聚类,也可以不参与任何聚类。

  • 一个属性可以包含在多个聚类中,也可以不包含在任何聚类中。

双聚类技术最初是为了解决探索基因表达数据的要求而推荐的。基因是生物体将其性状传递给后代的系统。通常,基因由一段DNA组成。

基因对所有生物至关重要,因为它们决定某些蛋白质和功能性RNA链。它们影响构建和维持活生物体细胞的数据,并将遗传性状传递给后代。

基因型是细胞、生物体或个体的遗传构成。表型是有机体的可见特征。基因表达是遗传学中基因型导致表型的重要水平。

更新于:2022年2月18日

347 次浏览

启动你的职业生涯

完成课程获得认证

开始学习
广告