Hoeffding 树算法是一种用于流数据分类的决策树学习方法。它最初用于跟踪 Web 点击流并构建模型以预测用户可能访问哪些 Web 主机和 Web 站点。它通常在亚线性时间内运行,并生成与传统批处理学习器生成的决策树几乎相同的决策树。它使用 Hoeffding 树,利用这样一种思想,即一个小样本通常足以选择最佳分割属性。霍夫丁界(或加性切尔诺夫界)从数学上支持了这一想法。假设我们对随机... 阅读更多
BIRCH 代表使用层次结构的平衡迭代归约和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。BIRCH 提供了两个概念,聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中实现最佳速度和可扩展性,并且还使其能够有效地对传入对象的增量和动态聚类。给定一个聚类中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D... 阅读更多
在数据集 S 中,如果至少有 p 的比例的对象与对象 o 的距离大于 d,则对象 o 就是一个基于距离的 (DB) 离群值,参数为 p 和 d,即 DB (p, d)。换句话说,它不依赖于统计检验,可以将基于距离的离群值视为那些没有足够邻居的对象。邻居是根据给定对象距离来表示的。与基于统计的方法相比,基于距离的离群值检测概括或融合了标准分布离群检验背后的思想。因此,基于距离的离群值也是…… 阅读更多