Hoeffding 树算法是一种用于流数据分类的决策树学习方法。它最初用于跟踪 Web 点击流并构建模型以预测用户可能访问哪些 Web 主机和 Web 网站。它通常以次线性时间运行,并生成与传统批处理学习者生成的决策树几乎相同的决策树。它使用 Hoeffding 树,利用这样一种想法,即一个小样本通常足以选择最佳拆分属性。霍夫丁界(或加性切尔诺夫界)从数学上支持了这一想法。假设我们对随机…… 阅读更多
BIRCH 代表使用层次结构的平衡迭代缩减和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。BIRCH 提供了两个概念,聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构有助于聚类方法在大型数据库中实现最佳速度和可扩展性,并使其对传入对象的增量和动态聚类有效。给定一个聚类中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D…… 阅读更多
如果数据集 S 中至少有一部分 p 的对象与 o 的距离大于 d,则数据集中 S 中的对象 o 是具有参数 p 和 d 的基于距离的 (DB) 异常值,即 DB (p, d)。换句话说,与其依赖统计检验,不如将基于距离的异常值视为那些没有足够邻居的对象。邻居是根据与给定对象的距离来表示的。与基于统计的方法相比,基于距离的异常值检测概括或合并了标准分布的离群值检验背后的思想。因此,基于距离的异常值也是…… 阅读更多