找到 6705 篇文章 关于数据库

什么是顺序模式挖掘?

Ginni
更新于 2022年2月17日 11:39:40

12K+ 阅读量

顺序模式挖掘是指挖掘频繁出现的系列事件或子序列作为模式。顺序模式的一个实例是,购买佳能数码相机的用户在一个月内购买惠普彩色打印机的可能性。对于零售信息,顺序模式有利于货架摆放和促销。该行业以及电信和其他企业还可以利用顺序模式进行目标营销、用户留存和多项任务。顺序模式可用于多个领域,例如 Web 访问模式分析、天气预报、生产过程和 Web 入侵检测。给定一组序列,其中每个... 阅读更多

什么是 STREAM?

Ginni
更新于 2022年2月17日 11:38:00

329 阅读量

STREAM 是一种单遍、常数元素近似算法,它是为 k-均值问题而产生的。k-均值问题是将 N 个数据点聚类成 k 个簇或组,使得点与其分配到的簇中心之间的平方误差和 (SSQ) 最小化。其思想是将相似的点分配到同一个簇中,其中这些点与其他簇中的点不同。在流数据模型中,数据点只能被查看一次,并且内存和时间有限。它可以实现高质量的聚类,STREAM 算法处理数据流... 阅读更多

数据流聚类的方法有哪些?

Ginni
更新于 2022年2月17日 11:36:08

1K+ 阅读量

数据流聚类被描述为对连续出现的数据进行聚类,包括电话数据、多媒体数据、货币交易等。数据流聚类通常被视为一种流算法,其目标是在给定一系列点的情况下,利用少量内存和时间对流进行最佳聚类。一些应用程序需要将此类数据自动聚类到基于其相似性的集中。示例包括 Web 入侵检测、分析 Web 点击流和股票市场分析的应用程序。有几种动态方法用于聚类静态数据集,而聚类数据流会对... 阅读更多

Lossy Counting 算法如何查找频繁项?

Ginni
更新于 2022年2月17日 11:32:55

821 阅读量

用户支持两个输入参数,包括最小支持阈值 σ 和先前指示的误差界限 ε。理论上将传入的流划分为宽度为 w = [1/ε] 的桶。令 N 为当前流长度,即迄今为止查看的项目数。该算法需要一个频率列表数据结构来存储所有频率高于 0 的元素。对于每个项目,列表支持 f,即近似频率计数,以及 ∆,即 f 的最大可能误差。算法过程如下将项目划分为桶。当一个新的桶到达时,桶中的项目将... 阅读更多

数据挖掘中的随机算法和数据流管理系统是什么?

Ginni
更新于 2022年2月17日 11:28:41

2K+ 阅读量

随机算法 - 随机算法以随机抽样和蓝图的形式用于处理大型高维数据流。与已知的确定性算法相比,随机化的需要导致更简单、更有效的算法。如果随机算法始终返回正确答案,但运行时间发生变化,则称为拉斯维加斯算法。相反,蒙特卡罗算法对运行时间有界限,但无法恢复真实结果。它通常可以考虑蒙特卡罗算法。随机算法的重要性仅仅作为一组概率分布... 阅读更多

什么是顺序异常技术?

Ginni
更新于 2022年2月17日 11:18:57

319 阅读量

顺序异常技术模拟了人类区分看似相似对象序列中异常集的方法。它有助于数据的隐式冗余。给定一个包含 n 个对象的数据集 D,它构建一系列这些对象的子集 {D1, D2, ..., Dm},其中 2 ≤ m ≤ n 包括$$\mathrm{D_{j−1}\subset D_{j}\:\:where\: D_{j}\subseteq D}$$在系列中的子集之间评估差异。该技术学习以下术语,如下所示 -异常集 - 这是偏差或异常值的集合。它被定义为移除后导致... 阅读更多

我们如何解决带障碍物的聚类问题?

Ginni
更新于 2022年2月17日 11:08:03

142 阅读量

分区聚类方法是理想的,因为它最小化了集合与其聚类中心之间的距离。如果可以选择 k-均值方法,则在存在障碍物的情况下,聚类中心可能不可用。例如,聚类可能出现在湖的中心。换句话说,k-类中心方法在簇内选择一个对象作为中心,从而保证不会出现问题。每次选择一个新的类中心时,必须重新计算每个对象与其新选择的聚类中心之间的距离。因为在... 阅读更多

什么是 PROCLUS?

Ginni
更新于 2022年2月17日 11:05:08

4K+ 阅读量

PROCLUS 代表投影聚类。它是一种常见的降维子空间聚类技术。也就是说,它不是从单个维度空间开始,而是首先在高维属性空间中找到簇的原始近似值。每个维度为每个簇创建一个权重,并在下一轮迭代中使用更新的权重来重新创建簇。这导致探索某些方便维数的所有子空间中的密集区域,并防止在较低维数的投影维度中生成大量重叠的簇。PROCLUS 通过爬山阶段发现最佳的类中心组... 阅读更多

什么是 CLIQUE?

Ginni
更新于 2022年2月17日 11:02:06

2K+ 阅读量

CLIQUE 是第一个为高维空间中的维度增长子空间聚类而设计的算法。在维度增长子空间聚类中,聚类过程从一维子空间开始,向上增加到更高维度的子空间。因为 CLIQUE 将每个维度划分为网格结构,并根据它包含的多个点来确定单元格是否密集。它可以被视为基于密度和基于网格的聚类方法的集成。CLIQUE 聚类算法的思想如下 -给定一组大型的多维数据点,数据空间通常不会被数据点均匀地占据。CLIQUE 的聚类识别稀疏和... 阅读更多

COBWEB 的工作原理是什么?

Ginni
更新于 2022年2月17日 10:58:38

401 阅读量

COBWEB 将对象增量地包含到分类树中。COBWEB 沿着分配路径向下遍历树,在此过程中刷新计数,以寻找“最佳主机”或定义对象的节点。此决策取决于将对象临时放置在每个节点中并计算所得划分的类别效用。导致最高元素效用的放置必须是对象的最佳主机。COBWEB 还计算如果为对象创建新节点,则可能产生的分区的类别效用。对象位于当前类中,或者... 阅读更多

广告