12K+ 浏览量
顺序模式挖掘是挖掘频繁出现的系列事件或子序列作为模式。顺序模式的一个实例是:购买佳能数码相机的用户会在一个月内购买惠普彩色打印机。对于零售信息,顺序模式有利于货架摆放和促销。这个行业,以及电信和其他企业,也可以使用顺序模式进行目标营销、用户留存和多项任务。顺序模式可用于多个领域,例如网络访问模式分析、天气预报、生产过程和网络入侵检测。给定一组序列,其中每个……阅读更多
329 浏览量
STREAM 是一种单遍、常数空间近似算法,它是为 k-均值问题而设计的。k-均值问题是将 N 个数据点聚类到 k 个集群或组中,使得点与其被分配到的集群中心之间的平方误差和 (SSQ) 最小化。其思想是将相似的点分配到同一个集群,而这些点与其他集群中的点不同。在流数据模型中,数据点只能被查看一次,并且内存和时间有限。它可以实现高质量的聚类,STREAM 算法处理数据流……阅读更多
1K+ 浏览量
数据流聚类被描述为对连续出现的数据进行聚类,包括电话数据、多媒体数据、货币交易等。数据流聚类通常被视为一种流算法,其目标是在给定一系列点的情况下,利用少量内存和时间,对流进行最佳聚类。一些应用程序需要根据其相似性将此类数据自动聚类到集合中。示例包含用于网络入侵检测、分析网络点击流和股票市场分析的应用程序。有几种动态方法可以对静态数据集进行聚类,而对数据流进行聚类会对……阅读更多
820 浏览量
用户支持两个输入参数,包括最小支持阈值 σ 和先前指示的误差边界 ε。传入的流在理论上被划分为宽度为 w = [1/ε] 的桶。令 N 为当前流长度,即迄今为止查看的项目数。该算法需要一个频率列表数据结构来存储频率高于 0 的所有元素。对于每个项目,列表支持 f(近似频率计数)和 ∆(f 的最大可能误差)。该算法按如下方式对项目进行分桶。当一个新的桶到达时,桶中的项目……阅读更多
2K+ 浏览量
随机算法 - 以随机抽样和蓝图形式出现的随机算法用于处理大型、高维数据流。与已知的确定性算法相比,随机化的需求导致更简单、更有效的算法。如果随机算法持续返回正确答案,但运行时间发生变化,则称为拉斯维加斯算法。相反,蒙特卡罗算法对运行时间有界限,但无法恢复真实结果。它通常可以考虑蒙特卡罗算法。随机算法的重要性仅仅是作为概率分布……阅读更多
319 浏览量
顺序异常技术模拟了人类区分一系列看似相似对象之间的异常集合的方法。它有助于数据的隐式冗余。给定一个包含 n 个对象的数据集 D,它构造一系列这些对象的子集 {D1, D2, ..., Dm},其中 2 ≤ m ≤ n,包括$$\mathrm{D_{j−1}\subset D_{j}\:\:where\: D_{j}\subseteq D}$$评估系列中子集之间的差异。该技术学习以下术语:异常集 - 这是偏差或异常值的集合。它被定义为移除后导致……阅读更多
142 浏览量
分区聚类方法是理想的,因为它最小化了集合与其聚类中心之间的距离。如果可以选择 k-means 方法,则在存在障碍的情况下,聚类中心可能不可用。例如,聚类可能会出现在湖的中心。换句话说,k-medoids 方法选择集群内的对象作为中心,因此保证不会出现问题。每次选择新的中心点时,都必须重新计算每个对象与其新选择的聚类中心之间的距离。因为在……阅读更多
4K+ 浏览量
PROCLUS 代表投影聚类。它是一种常用的降维子空间聚类技术。也就是说,它不是从个体维度空间开始,而是首先在高维属性区域中找到聚类的原始近似值。为每个集群创建每个维度的权重,并在下一次迭代中使用更新的权重来重新创建集群。这导致探索某些方便维数的所有子空间中的密集区域,并防止在较低维数的投影维度中生成大量重叠的集群。PROCLUS 通过爬山阶段发现最佳的类中心组……阅读更多
CLIQUE 是第一个为高维空间中的维度增长子区域聚类而设计的算法。在维度增长子区域聚类中,聚类过程从一维子空间开始,向上增加到更高维的空间。因为 CLIQUE 将每个维度划分为网格结构,并根据它包含的多个点来确定单元格是否密集。它可以被看作是基于密度和基于网格的聚类方法的集成。CLIQUE 聚类算法的思想如下:给定一组大型的多维数据点,数据空间通常不会被数据点均匀地占用。CLIQUE 的聚类识别稀疏和……阅读更多
401 浏览量
COBWEB 将对象增量地添加到分类树中。COBWEB 沿着分配路径向下遍历树,在此过程中刷新计数,以寻找定义对象的“最佳主机”或节点。此决定取决于将对象暂时放置在每个节点中并计算由此产生的划分的类别效用。导致最高元素效用的位置必须是对象的最佳主机。COBWEB 还计算如果为对象创建新节点可能会产生的分区的类别效用。对象位于当前类中,或者……阅读更多