什么是半监督聚类分析?
半监督聚类是一种通过利用领域知识对未标记数据进行划分的方法。它通常表示为实例之间的成对约束,或者仅仅表示为一组额外的标记实例。
使用一些弱监督结构(例如,以成对约束的形式(即标记为属于相似或不同聚类的对象对))可以从本质上提高无监督聚类的质量。这种依赖于用户反馈或指导约束的聚类过程被称为半监督聚类。
半监督聚类有几种方法,可以分为以下两类:
基于约束的半监督聚类 - 它可以基于用户提供的标签或约束来支持算法朝着更合适的数据分区方向发展。这包括根据约束修改目标函数,或根据标记对象初始化和约束聚类过程。
基于距离的半监督聚类 - 它可以用来采用适应性距离度量,该度量被训练以满足监督数据中的标签或约束。已经使用了多种自适应距离度量,包括使用期望最大化(EM)训练的字符串编辑距离,以及由最短距离算法更改的欧氏距离。
一种有趣的聚类方法,称为 CLTree(基于决策树的聚类)。它将无监督聚类与监督分类的概念相结合。它是基于约束的半监督聚类的实例。它通过将要聚类的点集视为属于一个类(标记为“Y”)来将聚类任务转换为分类任务,并插入一组分布相对均匀的“不存在点”,并使用多个类标签“N”。
然后,将数据区域划分为数据(密集)区域和空(稀疏)区域的问题可以转换为分类问题。这些点可以被认为是一组“Y”点。它显示了添加一组均匀分布的“N”点,由“o”点定义。
因此,原始的聚类问题被转换为分类问题,该问题计算出区分“Y”和“N”点的设计。可以使用决策树归纳法来划分二维空间。识别出两个聚类,它们仅来自“Y”点。
它可以用来将大量的“N”点插入到原始数据中,这会在计算中引入不必要的开销。此外,添加的一些点不太可能在非常高维的空间中真正均匀分布,因为这可能需要指数数量的点。
广告