找到 6705 篇文章 关于数据库

什么是顺序模式挖掘?

Ginni
更新于 2022年2月17日 11:39:40

12K+ 浏览量

顺序模式挖掘是指挖掘频繁出现的系列事件或子序列作为模式。顺序模式的一个例子是,购买佳能数码相机的用户在一个月内购买惠普彩色打印机的可能性。对于零售信息,顺序模式有利于货架摆放和促销。这个行业,以及电信和其他企业,也可以使用顺序模式进行目标营销、用户留存和多种任务。顺序模式可用于多个领域,例如 Web 访问模式分析、天气预报、生产流程和 Web 入侵检测。给定一组序列,其中每个... 阅读更多

什么是 STREAM?

Ginni
更新于 2022年2月17日 11:38:00

329 浏览量

STREAM 是一种单遍、常数元素近似算法,它是为 k-均值问题而产生的。k-均值问题是将 N 个数据点聚类成 k 个聚类或组,使得分配给它们的聚类中心与点之间的平方误差和 (SSQ) 最小化。其思想是将相似的点分配到同一个聚类中,其中这些点与其他聚类中的点不同。在数据流模型中,数据点只能看到一次,并且内存和时间有限。它可以实现高质量的聚类,STREAM 算法处理数据流... 阅读更多

数据流聚类的方法有哪些?

Ginni
更新于 2022年2月17日 11:36:08

1K+ 浏览量

数据流聚类被描述为对连续出现的数据进行聚类,包括电话数据、多媒体数据、货币交易等。数据流聚类通常被视为流算法,其目标是,给定一个点序列,利用少量内存和时间,对流进行最佳聚类。一些应用程序需要根据其相似性将此类数据自动聚类成集。示例包含 Web 入侵检测、分析 Web 点击流和股票市场分析的应用程序。有几种动态方法可以对静态数据集进行聚类,而对数据流进行聚类会对... 阅读更多

Lossy Counting 算法如何查找频繁项?

Ginni
更新于 2022年2月17日 11:32:55

821 浏览量

用户支持两个输入参数,包括最小支持阈值 σ 和先前的错误边界,表示为 ε。传入的流在理论上被划分为宽度为 w = [1/ε] 的桶。令 N 为当前流长度,即到目前为止查看的项目数。该算法需要一个频率列表数据结构,用于所有频率高于 0 的元素。对于每个项目,列表支持 f,即近似频率计数,以及 ∆,即 f 的最大可能误差。该算法过程如下:当一个新桶到达时,桶中的项目... 阅读更多

数据挖掘中什么是随机算法和数据流管理系统?

Ginni
更新于 2022年2月17日 11:28:41

2K+ 浏览量

随机算法 - 随机算法以随机抽样和蓝图的形式,用于处理大型、高维数据流。与已知的确定性算法相比,随机化的需要导致更简单、更有效的算法。如果随机算法不断返回正确的答案,但运行时间发生变化,则称为拉斯维加斯算法。相反,蒙特卡罗算法对运行时间有界,但无法恢复真实结果。它通常可以考虑蒙特卡罗算法。随机算法的重要性仅仅是作为一组... 阅读更多

什么是顺序异常技术?

Ginni
更新于 2022年2月17日 11:18:57

319 浏览量

顺序异常技术模拟了人类区分一系列看似相似对象之间异常集合的方法。它有助于数据的隐式冗余。给定一个包含 n 个对象的数据集 D,它构造这些对象的子集序列 {D1, D2, ..., Dm},其中 2 ≤ m ≤ n 包括$$\mathrm{D_{j−1}\subset D_{j}\:\:where\: D_{j}\subseteq D}$$在系列中的子集之间评估差异。该技术学习以下术语,如下所示 -异常集 - 这是偏差或异常值的集合。它被定义为移除后会导致... 阅读更多

我们如何处理带障碍物的聚类问题?

Ginni
更新于 2022年2月17日 11:08:03

142 浏览量

分区聚类方法是理想的,因为它最小化了集合与其聚类中心之间的距离。如果它可以选择 k-均值方法,则在存在障碍物的情况下,聚类中心可能不可用。例如,聚类可能出现在湖泊的中心。换句话说,k-中值方法在聚类内部选择一个对象作为中心,从而保证不会出现问题。每次选择一个新的中值时,必须重新计算每个对象与其新选择的聚类中心之间的距离。因为在... 阅读更多

什么是 PROCLUS?

Ginni
更新于 2022年2月17日 11:05:08

4K+ 浏览量

PROCLUS 代表投影聚类。它是一种常用的降维子空间聚类技术。也就是说,它不是从单个维度空间开始,而是首先在高维属性区域中找到聚类的原始近似值。每个维度为每个聚类创建一个权重,并且在接下来的迭代中使用更新的权重来重新创建聚类。这导致探索某些方便维度的所有子空间中的密集区域,并防止在较低维度的投影维度中生成大量重叠的聚类。PROCLUS 通过爬山阶段发现最佳中值组... 阅读更多

什么是 CLIQUE?

Ginni
更新于 2022年2月17日 11:02:06

2K+ 浏览量

CLIQUE 是第一个为高维空间中的维度增长子区域聚类而设计的算法。在维度增长子区域聚类中,聚类过程从一维子空间开始,向上增加到更高维度的子空间。因为 CLIQUE 将每个维度划分为网格结构,并根据它包含的多个点来确定单元格是否密集。它可以被视为基于密度和基于网格的聚类方法的集成。CLIQUE 聚类算法的思想如下 -给定一组大型多维数据点,数据区域通常不会被数据点均匀占用。CLIQUE 的聚类识别稀疏和... 阅读更多

COBWEB 的工作原理是什么?

Ginni
更新于 2022年2月17日 10:58:38

401 浏览量

COBWEB 将对象增量地包含到分类树中。COBWEB 沿着分配路径下降树,在此过程中刷新计数,以搜索“最佳主机”或定义对象的节点。此决定取决于将对象临时放置在每个节点中并计算结果划分的类别效用。导致最高元素效用的放置必须是对象的最佳主机。COBWEB 还计算如果为对象创建新节点可能产生的分区的类别效用。对象位于当前类中,或... 阅读更多

广告