找到 1861 篇文章 关于数据结构

链接挖掘的挑战是什么?

Ginni
更新于 2021-11-25 08:11:13

547 次浏览

链接挖掘面临着一些挑战,如下所示:逻辑依赖与统计依赖 - 图形链接结构中存在两种类型的依赖关系:(表示对象之间逻辑关系)和概率依赖关系(表示统计关系,例如对象属性之间的相关性,通常,这些对象在逻辑上是相关的)。对这些依赖关系的协调处理也是多关系数据挖掘的一个挑战,其中要挖掘的数据存在于多个表中。它应该搜索对象之间若干可能的逻辑关系,此外还应该搜索属性之间的概率依赖关系的标准搜索。这需要大量的... 阅读更多

链接挖掘的任务是什么?

Ginni
更新于 2021-11-25 08:09:42

932 次浏览

链接挖掘有几个任务,如下所示:基于链接的对象分类 - 在传统的分类方法中,对象根据定义它们的属性进行分类。基于链接的分类预测对象的类别不仅取决于其属性,还取决于其链接以及链接对象的属性。网页分类是基于链接分类的一个很好的例子。它根据词语出现(出现在页面上的词语)和锚文本(超链接词语,即可以点击的词语)来预测网页的分类。当它可以点击... 阅读更多

什么是社交网络?

Ginni
更新于 2021-11-25 08:07:35

906 次浏览

社交网络是由图描述的异构和多关系信息集。该图通常非常大,节点对应于对象,边对应于描述对象之间关系或连接的连接。节点和连接都具有属性。对象可以具有类标签。链接可以是单向的,并且不需要是二元的。社交网络是由图描述的异构和多关系信息集。该图通常非常大,节点对应于对象,边对应于描述对象之间关系或连接的连接。节点和连接都具有属性。对象... 阅读更多

我们如何发现频繁的子结构?

Ginni
更新于 2021-11-25 08:05:04

272 次浏览

频繁子结构的发现通常包括两个步骤。第一步,它可以生成频繁子结构候选。第二步测试每个候选的频率。大多数关于频繁子结构发现的研究都集中在第一步的优化上,因为第二步涉及子图同构测试,其计算复杂度过高(即 NP 完全)。频繁子结构挖掘有多种方法,如下所示:基于 Apriori 的方法 - 基于 Apriori 的频繁子结构挖掘算法与基于 Apriori 的频繁项集挖掘算法具有相同的特征。频繁图的搜索从... 阅读更多

什么是周期性分析?

Ginni
更新于 2021-11-25 08:02:07

3K+ 次浏览

周期性分析是对周期性模式的挖掘,即在时间相关序列数据中搜索重复模式。周期性分析可用于多个重要领域。例如,季节、潮汐、行星轨迹、每日电力消耗、每日交通模式和每周电视节目都呈现出一定的周期性模式。周期性分析是在时间序列数据上实现的,其中包括通常以相等时间间隔(例如,每小时、每天、每周)测量的值的序列或事件。它也可以应用于其他时间相关的序列数据,其中值或事件可能发生在不相等的时间间隔或任何时间(例如,在线交易)。... 阅读更多

什么是时间序列数据库?

Ginni
更新于 2021-11-25 08:00:25

996 次浏览

时间序列数据库包含在重复评估时间内访问的值或事件序列。这些值通常以相等的时间间隔(例如,每小时、每天、每周)计算。时间序列数据库在许多应用中很流行,例如股票市场分析、经济和销售预测、预算分析、公用事业研究、库存研究、产量预测、工作量预测、过程和质量控制、自然现象(包括大气、温度、风和地震)的观察、数值和工程实验以及医疗处理。时间序列数据库也是一个序列数据库。序列数据库是任何包含有序事件序列的数据库,无论是否有具体的... 阅读更多

什么是 CluStream?

Ginni
更新于 2021-11-25 07:58:04

780 次浏览

CluStream 是一种用于基于用户指定的在线聚类查询对不断发展的数据流进行聚类的算法。它将聚类过程划分为在线和离线组件。在线组件使用微聚类计算和存储有关数据流的汇总统计信息,并执行微聚类的增量在线计算和维护。离线组件执行宏聚类,并使用存储的汇总统计信息回答各种用户问题,这些汇总统计信息基于倾斜时间框架模型。基于历史和当前流数据信息对集群发展数据流,采用倾斜时间框架模型(如渐进对数模型),... 阅读更多

什么是 Hoeffding 树算法?

Ginni
更新于 2021-11-25 07:54:06

4K+ 次浏览

Hoeffding 树算法是一种用于流数据分类的决策树学习方法。它最初用于跟踪 Web 点击流并构建模型以预测用户可能访问哪些 Web 主机和 Web 站点。它通常在亚线性时间内运行,并生成与传统批处理学习器生成的决策树几乎相同的决策树。它使用 Hoeffding 树,利用这样一种思想,即一个小样本通常足以选择最佳分割属性。霍夫丁界(或加性切尔诺夫界)从数学上支持了这一想法。假设我们对随机... 阅读更多

什么是 BIRCH?

Ginni
更新于 2021-11-25 07:47:53

1K+ 次浏览

BIRCH 代表使用层次结构的平衡迭代归约和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。BIRCH 提供了两个概念,聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中实现最佳速度和可扩展性,并且还使其能够有效地对传入对象的增量和动态聚类。给定一个聚类中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D... 阅读更多

什么是基于距离的异常值?

Ginni
更新于 2021-11-25 07:46:20

2K+ 次浏览

在数据集 S 中,如果至少有 p 的比例的对象与对象 o 的距离大于 d,则对象 o 就是一个基于距离的 (DB) 离群值,参数为 p 和 d,即 DB (p, d)。换句话说,它不依赖于统计检验,可以将基于距离的离群值视为那些没有足够邻居的对象。邻居是根据给定对象距离来表示的。与基于统计的方法相比,基于距离的离群值检测概括或融合了标准分布离群检验背后的思想。因此,基于距离的离群值也是…… 阅读更多

广告