基于约束的聚类分析有哪些类型?
基于约束的聚类方法寻找满足用户指定偏好或约束的聚类结果。根据约束的性质,基于约束的聚类可以采用不同的方法。约束主要分为以下几类:
对单个对象的约束 − 可以对要聚类的对象定义约束。例如,在房地产应用中,可以只想对价值超过一百万美元的豪华别墅进行空间聚类。此约束将要聚类的对象集合限制在一定范围内。这可以通过预处理(例如,使用SQL查询实现选择)简单地进行管理,之后问题就简化为无约束聚类的问题。
对聚类参数选择的约束 − 用户可以设定每个聚类参数的期望范围。聚类参数通常对给定的聚类算法非常特定。参数示例包括k-means算法中期望的聚类数k;或DBSCAN算法中的ε(半径)和MinPts(最小点数)。
尽管此类用户指定的参数可以强烈影响聚类结果,但它们通常仅限于算法本身。因此,它们的微调和处理通常不被视为基于约束的聚类的一种形式。
对距离或相似性函数的约束 − 可以为要聚类的对象的特定属性定义多个距离或相似性函数,或为有限的成对对象定义不同的距离度量。例如,在对运动员进行聚类时,可以使用不同的权重方案来衡量身高、体重、年龄和技能水平。
用户指定的对单个聚类属性的约束 − 用户可以指定结果聚类的期望特性,这会强烈影响聚类过程。
考虑一家快递公司,该公司希望确定城市中k个服务站的位置。该公司拥有一个用户数据库,其中注册了用户的姓名、位置、使用公司服务的时长以及平均月度价格。可以使用基于客户位置计算的距离函数将此位置选择问题表述为无约束聚类问题。
一种更智能的方法是将客户分为两类:高价值客户(需要频繁、定期的服务)和普通客户(需要偶尔的服务)。为了节省成本并提供良好的服务,管理人员添加了以下约束:
每个服务站必须至少服务100个高价值客户。
每个服务站必须至少服务5000个普通客户。基于约束的聚类将在聚类过程中考虑这些约束。
基于“部分”监督的半监督聚类 − 可以使用某种弱形式的监督来显著提高无监督聚类的质量。这可以是成对约束的形式(即,标记为属于相同或不同聚类的对象对)。这种受约束的聚类过程称为半监督聚类。