什么是概念聚类?
概念聚类是机器学习中的一种聚类形式,它在给定一组未标记对象的情况下,对这些对象进行分类设计。与传统的聚类(通常识别相似对象的组)不同,概念聚类更进一步,还发现了每个组的特征定义,其中每个组定义一个概念或类别。
因此,概念聚类是一个两步过程——首先实现聚类,然后进行特征描述。因此,聚类质量不仅仅是单个对象的函数。大多数概念聚类技术采用统计方法,在决定概念或聚类时使用概率测量。
概率描述通常用于定义每个派生概念。COBWEB 是一种著名的、简单的增量概念聚类方法。其输入对象由分类属性-值对定义。COBWEB 以分类树的形式进行层次聚类。
分类树与决策树不同。分类树中的每个节点都定义一个概念,并包含该概念的概率描述,该描述总结了在节点下分类的对象。概率描述包含概念的概率和条件概率的形式为 $P(A_{i}=v_{ij}|C_{k})$ 是一个属性-值对(第 i 个属性取其第 j 个可能的值),而 Ck 是概念类。
COBWEB 使用一种称为类别效用的启发式评估度量来指导树的构建。类别效用 (CU) 定义为
$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$
其中 n 是在树的给定级别形成分区的节点、概念或“类别”的数量,{C1,C2,..., Cn}。换句话说,类别效用是在给定分区的情况下可以完美猜测的属性值的预期数量的增加(其中此预期数量对应于项 $P(C_{k})\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{k})^{2}$ 超过在没有此类知识的情况下正确猜测的预期数量(对应于项 $\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}$ 。虽然没有空间展示推导过程,但类别效用奖励类内相似性和类间差异,其中——
类内相似性——它是概率 $P(A_{i}=v_{ij}|C_{k})$。此值越高,共享此属性-值对的类成员的比例越高,并且该对对于类成员的可预测性越高。
类间差异——它是概率 $P(C_{k}|A_{i}=v_{ij})$。此值越高,在对比类中共享此属性-值对的对象越少,并且该对对于类的预测性越高。
COBWEB 沿着合适的路径下降树,沿途刷新计数,以寻找定义对象的“最佳主机”或节点。此决定取决于将对象暂时放置在每个节点中并评估所得分区的类别效用。导致最高类别效用的放置应该是对象的最佳主机。