1K+ 浏览量
数据流聚类被描述为对连续出现的数据进行聚类,包括电话数据、多媒体数据、金融交易等。数据流聚类通常被视为一种流算法,其目标是在给定一系列点的情况下,利用少量内存和时间对流进行最佳聚类。一些应用程序需要根据数据之间的相似性自动将此类数据聚类成集合。示例包括网络入侵检测、分析 Web 点击流和股票市场分析的应用程序。有几种动态方法用于聚类静态数据集,而数据流聚类对…… 阅读更多
821 浏览量
用户支持两个输入参数,包括最小支持阈值 σ 和先前指示的误差范围 ε。理论上,传入的流被划分为宽度为 w = [1/ε] 的桶。令 N 为当前流长度,即到目前为止查看的项目数。该算法需要一个频率列表数据结构来存储所有频率高于 0 的元素。对于每个项目,列表支持 f,即近似频率计数,以及 ∆,即 f 的最大可能误差。该算法过程如下所示。当一个新的桶到达时,桶中的项目将…… 阅读更多
2K+ 浏览量
随机算法 - 随机算法以随机采样和蓝图的形式被用于处理大型、高维数据流。与已知的确定性算法相比,随机化的需求导致了更简单、更有效的算法。如果随机算法持续返回正确答案,但运行时间发生变化,则称为拉斯维加斯算法。相反,蒙特卡罗算法对运行时间有界限,但不能恢复真实结果。它通常可以考虑蒙特卡罗算法。随机算法的重要性仅仅是作为一个概率分布在一个组的…… 阅读更多
319 浏览量
顺序异常技术模拟了人类区分一系列看似相似对象之间异常集的方法。它有助于数据的隐式冗余。给定一个包含 n 个对象的数据集 D,它构建这些对象的一系列子集 {D1, D2, ..., Dm},其中 2 ≤ m ≤ n,包括$$\mathrm{D_{j−1}\subset D_{j}\:\:where\: D_{j}\subseteq D}$$在序列中的子集之间评估差异。该技术学习以下术语:异常集 - 这是偏差或异常值的集合。它被定义为移除后导致…… 阅读更多
142 浏览量
分区聚类方法是可取的,因为它最大程度地减少了集合与其聚类中心之间的距离。如果可以选择 k 均值方法,则在存在障碍物的情况下,聚类中心可能不可用。例如,聚类可能出现在湖泊的中心。换句话说,k-medoids 方法选择聚类内部的一个对象作为中心,从而保证不会出现问题。每次选择一个新的 medoid 时,必须重新计算每个对象与其新选择的聚类中心之间的距离。因为在…… 阅读更多
4K+ 浏览量
PROCLUS 代表 Projected Clustering。它是一种常用的降维子空间聚类技术。也就是说,它不是从单个维空间开始,而是首先在高维属性空间中找到聚类的初始近似值。每个维度为每个聚类创建一个权重,并在下一次迭代中使用更新的权重来重新创建聚类。这导致在某些方便维度的所有子空间中探索密集区域,并防止在较低维度的投影维度中生成大量重叠的聚类。PROCLUS 通过爬山阶段发现最佳的 medoid 组…… 阅读更多
CLIQUE 是第一个为高维空间中的维度增长子空间聚类设计的算法。在维度增长子空间聚类中,聚类过程从一维子空间开始,向上扩展到更高维子空间。因为 CLIQUE 将每个维度划分为网格结构,并根据包含的多个点来确定单元格是否密集。它可以被视为基于密度和基于网格的聚类方法的集成。CLIQUE 聚类算法的思想如下:给定一大组多维数据点,数据空间通常不会被数据点均匀地占据。CLIQUE 的聚类识别稀疏和…… 阅读更多
401 浏览量
COBWEB 将对象增量地包含到分类树中。COBWEB 沿着分配路径向下遍历树,在此过程中刷新计数,以查找“最佳主机”或定义对象的节点。此决定取决于将对象临时放置在每个节点中并计算结果划分的类别效用。导致最高元素效用的放置必须是对象的最佳主机。COBWEB 还计算如果为对象创建一个新节点可能产生的分区的类别效用。对象位于当前类中,或者…… 阅读更多
104 浏览量
统计参数可用于自上而下、基于网格的方法,如下所示。首先,确定分层结构中的一个层,查询应答过程将从该层开始。此层通常包含少量单元格。对于当前层中的每个单元格,可以计算置信区间(或概率的估计范围),以反映单元格与给定查询的相关性。较高层单元格的统计参数可以简单地从较低层单元格的参数计算得出。这些参数包括以下内容:属性独立参数、计数和属性相关参数、均值、stdev(标准差)、min(最小值)、…… 阅读更多
746 浏览量
STING 代表 Statistical Information Grid。STING 是一种基于网格的多分辨率聚类方法,其中空间区域被划分为矩形单元格。有几种此类矩形单元格的方法相当于多种分辨率方法,这些单元格形成一个分层结构,每个高层单元格被分离以形成下一层中的多个单元格。每个网格单元格中属性的统计数据(包括均值、最大值和最小值)是预先计算并存储的。较高层单元格的统计参数可以简单地从较低层单元格的参数计算得出。这些参数包括以下内容…… 阅读更多