COWEB的工作原理是什么?


COBWEB 逐步将对象包含到分类树中。COBWEB 沿着分配路径向下遍历树,在方法中刷新计数,以搜索“最佳宿主”或定义对象的节点。

此决策取决于将对象临时放置在每个节点中并计算结果划分的类别效用。导致最高元素效用的放置必须是对象的最佳宿主。

COBWEB 还计算如果为对象创建新节点可能产生的分区的类别效用。对象位于当前类中,或为其生成一个新类,这取决于具有最大类别效用值的划分。COBWEB 具有自动调整分区中多个类的能力。它不需要依赖用户提供此类输入参数。

COBWEB 具有两个运算符,有助于使其不易受输入顺序的影响。这些是合并和拆分。当集成一个对象时,将对两个最佳宿主进行处理以合并到一个类中。

此外,COBWEB 考虑在当前类别之间划分良好宿主的子节点。这些决策取决于类别效用。合并和拆分运算符使 COBWEB 能够实现双向搜索,例如,合并可以撤消先前的拆分。

COWEB 的局限性

COWEB 的局限性如下:

它依赖于独立属性上的概率分布在统计上彼此分离的假设。此假设并不总是正确的,因为属性之间的相关性通常存在。

此外,聚类的概率分布描述使其刷新和存储聚类变得非常昂贵。当属性具有大量值时尤其如此,因为时间和空间复杂度不仅取决于几个属性,还取决于每个属性的几个值。

此外,对于倾斜的输入记录,分类树不是高度平衡的,这会导致时间和空间复杂度急剧下降。

CLASSIT 是 COBWEB 的扩展,用于连续(或实值)信息的增量聚类。它为每个节点中每个单个属性保存连续正态分布(即均值和标准差),并且需要一个修改后的类别效用度量,该度量是连续属性上的基本度量,而不是像 COBWEB 中那样是离散属性上的总和。

更新于: 2022年2月17日

400 次浏览

开启你的 职业生涯

完成课程获得认证

开始学习
广告