找到关于数据挖掘的413 篇文章

我们如何发现频繁子结构?

Ginni
更新于 2021年11月25日 08:05:04

272 次浏览

发现频繁子结构通常包括两个步骤。第一步是生成频繁子结构候选。第二步测试每个候选的频率。大多数关于频繁子结构发现的研究都集中在第一步的优化上,因为第二步涉及子图同构测试,其计算复杂度非常高(即 NP 完全问题)。有各种频繁子结构挖掘方法,如下所示 - 基于 Apriori 的方法 - 基于 Apriori 的频繁子结构挖掘算法与基于 Apriori 的频繁项集挖掘算法具有相同的特征。频繁图的搜索从…阅读更多

什么是周期性分析?

Ginni
更新于 2021年11月25日 08:02:07

3K+ 次浏览

周期性分析是对周期性模式的挖掘,即在时间相关序列数据中搜索重复模式。周期性分析可用于多个重要领域。例如,季节、潮汐、行星轨迹、每日电力消耗、每日交通模式和每周电视节目都呈现出一定的周期性模式。周期性分析是在时间序列数据上实现的,其中包括通常以相等时间间隔(例如,每小时、每日、每周)测量的值或事件序列。它也可以应用于其他时间相关的序列数据,其中值或事件可能发生在不相等的时间间隔或任何时间(例如,在线交易)。…阅读更多

什么是时间序列数据库?

Ginni
更新于 2021年11月25日 08:00:25

996 次浏览

时间序列数据库包含通过重复评估时间访问的值或事件序列。这些值通常以相等的时间间隔(例如,每小时、每日、每周)计算。时间序列数据库在许多应用程序中很流行,例如股票市场分析、经济和销售预测、预算分析、效用研究、库存研究、产量预测、工作量预测、过程和质量控制、自然现象观测(包括大气、温度、风和地震)、数值和工程实验以及医疗处理。时间序列数据库也是一个序列数据库。序列数据库是任何包含有序事件序列的数据库,无论是否有具体…阅读更多

什么是 CluStream?

Ginni
更新于 2021年11月25日 07:58:04

780 次浏览

CluStream 是一种基于用户指定的在线聚类查询对不断发展的数据流进行聚类的算法。它将聚类过程分为在线和离线组件。在线组件使用微型聚类计算和存储有关数据流的汇总统计信息,并执行微型聚类的增量在线计算和维护。离线组件执行宏观聚类,并使用存储的汇总统计信息回答各种用户问题,这些汇总统计信息基于倾斜时间框架模型。基于历史和当前流数据信息对聚类演变数据流,采用倾斜时间框架模型(例如渐进对数模型),…阅读更多

什么是 Hoeffding 树算法?

Ginni
更新于 2021年11月25日 07:54:06

4K+ 次浏览

Hoeffding 树算法是一种用于流数据分类的决策树学习方法。它最初用于跟踪 Web 点击流并构建模型以预测用户可能访问哪些 Web 主机和网站。它通常以次线性时间运行,并产生与传统批量学习者几乎相同的决策树。它使用 Hoeffding 树,它利用这样一个想法,即一个小样本通常足以选择最佳分割属性。Hoeffding 界限(或加性 Chernoff 界限)在数学上支持了这一想法。假设我们对随机…阅读更多

什么是 BIRCH?

Ginni
更新于 2021年11月25日 07:47:53

1K+ 次浏览

BIRCH 代表使用层次结构的平衡迭代归约和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。BIRCH 提供了两个概念,即聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中获得最佳速度和可扩展性,并使其对传入对象的增量和动态聚类有效。给定一个聚类中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D…阅读更多

什么是基于距离的异常值?

Ginni
更新于 2021年11月25日 07:46:20

2K+ 次浏览

如果数据集中至少有 p 分数的物体与物体 o 的距离大于 d,则数据集 S 中的物体 o 是具有参数 p 和 d 的基于距离的 (DB) 异常值,即 DB (p, d)。换句话说,它可以认为基于距离的异常值是没有足够邻居的那些物体,而不是依赖于统计检验。邻居是基于与给定物体的距离来表示的。与基于统计的方法相比,基于距离的异常值检测概括或合并了标准分布的差异性检验背后的思想。因此,基于距离的异常值也是…阅读更多

什么是半监督聚类分析?

Ginni
更新于 2021年11月24日 10:55:56

6K+ 次浏览

半监督聚类是一种通过使用领域知识来划分未标记数据的方法。它通常表示为实例之间的成对约束,或者只是作为一组额外的标记实例。使用一些弱监督结构(例如,成对约束的形式(即标记为属于相似或不同聚类的对象的对))可以从根本上提高无监督聚类的质量。这种依赖于用户反馈或指导约束的聚类过程称为半监督聚类。有几种半监督聚类方法,可以分为两类,它们是…阅读更多

基于约束的聚类分析有哪些类型?

Ginni
更新于 2021年11月24日 10:53:53

3K+ 次浏览

基于约束的聚类查找满足用户声明的首选项或约束的聚类。它基于约束的性质,基于约束的聚类可以采用不同的方法。有几类约束,如下所示 - 对单个对象的约束 - 它可以定义对要聚类的对象的约束。例如,在房地产应用程序中,人们可能只想对价值超过一百万美元的豪华住宅进行空间聚类。此约束将要聚类的对象集合限制在一定范围内。它可以通过预处理(例如,使用 SQL 查询实现选择)轻松管理,然后…阅读更多

什么是概念聚类?

Ginni
更新于 2021年11月24日 11:19:48

2K+ 次浏览

概念聚类是一种机器学习中的聚类形式,它在给定一组未标记的对象后,对这些对象进行分类设计。与传统的聚类方法(通常识别相似对象的群体)不同,概念聚类更进一步,还会发现每个群体的特征定义,其中每个群体定义一个概念或类别。因此,概念聚类是一个两步过程——首先实现聚类,然后进行特征描述。因此,聚类质量不仅仅是单个对象的属性。大多数概念聚类技术采用统计方法,利用概率测量来决定概念或聚类。概率……阅读更多

广告