找到 413 篇文章 关于数据挖掘

如何在数据挖掘中计算度量?

Ginni
更新于 2022年2月16日 06:51:29

2K+ 次查看

度量可以组织成三个元素,包括分布式、代数式和整体式。它取决于使用的聚合函数的类型。分布式 - 如果聚合函数可以以如下所示的分布式方式计算,则该函数为分布式。假设数据被独立地划分为 n 个集合。它可以使用该服务对每个分区进行计算,从而得到 n 个聚合值。如果使用该函数对 n 个聚合值进行计算的结果与使用该函数对整个数据集(不进行分区)进行计算的结果相同,则该函数可以以分布式方式进行计算。例如,count() 可以 ... 阅读更多

什么是基于熵的离散化?

Ginni
更新于 2022年2月16日 06:45:27

2K+ 次查看

基于熵的离散化是一种监督的、自顶向下的分裂方法。它在计算和保留分割点(用于分离属性范围的数据值)时探索类分布数据。它可以离散化一个统计属性 A,该方法选择具有最小熵的 A 值作为分割点,并递归地划分结果区间以出现在分层离散化中。具体的离散化形成 A 的概念层次结构。令 D 包含由一组属性和一个类标签属性描述的数据元组。类标签属性支持每个元组的类数据。基于熵的离散化的基本方法是 ... 阅读更多

如果小波变换后的数据与原始数据长度相同,那么这种技术如何对数据缩减有用?

Ginni
更新于 2022年2月16日 06:39:21

190 次查看

其用途在于可以限制小波变换后的数据。通过仅保存小波系数主成分的一小部分,可以保留信息的压缩近似值。例如,可以保持高于某个用户定义阈值的所有小波系数。其他一些系数被设置为 0。生成的数据描述非常稀疏,因此如果在小波空间中实现,则可以利用数据稀疏性的服务在计算上非常快。该方法还可以消除噪声,而不会平滑数据的关键特征,使其高效 ... 阅读更多

我们如何找到原始属性的一个好的子集?

Ginni
更新于 2022年2月16日 06:29:05

169 次查看

属性子集选择通过删除不相关或冗余的属性(或维度)来减少数据集的大小。属性子集选择的目的是发现一组最小的属性,以便数据类的后续概率分布尽可能接近使用所有属性获得的原始分布。对于 n 个属性,有 2n 个可能的子集。对属性的最优子集进行穷举搜索可能非常昂贵,特别是当 n 和数据类的数量增加时。因此,探索减少搜索空间的启发式方法通常用于属性子集选择。这些方法 ... 阅读更多

什么是趋势分析?

Ginni
更新于 2022年2月16日 06:26:57

1K+ 次查看

趋势分析定义了从时间序列中提取行为模型的技术,这些行为模型可能被噪声部分或完全隐藏。趋势分析方法通常用于检测疾病出现率的爆发和意外增加或减少、监测疾病趋势、评估疾病控制计划和政策的有效性以及评估医疗保健计划和政策的成功情况等。可以使用各种技术来检测项目系列中的趋势。平滑是一种用于去除时间序列中发现的非系统性行为的方法。平滑通常采用 ... 阅读更多

什么是时间数据挖掘?

Ginni
更新于 2022年2月16日 06:21:00

7K+ 次查看

时间数据挖掘定义了从大量时间数据集中提取非平凡的、隐式的、可能至关重要的数据的过程。时间数据是一系列主要数据类型,通常是数值,它处理从时间数据中收集有益的知识。时间数据挖掘的目标是在由一系列来自字母表的符号(称为时间序列)和一系列连续实值分量(称为时间序列)组成的更高顺序数据中,找到时间模式、意外趋势或多个隐藏关系,方法是利用一组来自 ... 阅读更多

空间数据挖掘的聚类方法有哪些?

Ginni
更新于 2022年2月16日 06:18:13

7K+ 次查看

聚类分析是统计学的一个分支,多年来一直被广泛研究。使用这种技术的好处是可以直接从数据中发现有趣的结构或聚类,而无需利用任何背景知识,例如概念层次结构。统计学中使用的聚类算法,如 PAM 或 CLARA,据报道在计算复杂度方面效率低下。根据效率问题,开发了一种名为 CLARANS(基于随机搜索的大型应用程序聚类)的新算法用于聚类分析。PAM(围绕类中心的划分) - 假设有 n 个对象,PAM 查找 k ... 阅读更多

空间数据挖掘的基本要素是什么?

Ginni
更新于 2022年2月16日 06:11:38

998 次查看

空间数据挖掘是将数据挖掘应用于空间模型。在空间数据挖掘中,分析师使用地理或空间数据来进行商业智能或不同的结果。这需要特定的方法和资源才能将地理数据转换为相关且有益的格式。空间数据挖掘中涉及的几个挑战包括识别与推动研究项目的相关问题相关的模式或发现对象。分析师可以在大型数据库区域或其他完全庞大的数据集中查看,以仅发现相关数据,利用 GIS/GPS 工具或类似系统。空间数据挖掘的基本要素是 ... 阅读更多

Web挖掘的应用有哪些?

Ginni
更新于 2022年2月16日 06:09:54

3K+ 次查看

Web 挖掘定义了使用数据挖掘技术提取有益模式趋势和数据的过程,通常在 Web 的帮助下,通过处理来自基于 Web 的记录和服务、服务器日志和超链接的数据。Web 挖掘旨在通过对数据进行分组和分析来发现 Web 信息中的设计,从而获得重要的见解。Web 挖掘可以广泛地视为将适应性数据挖掘方法应用于 Web,而数据挖掘则表示将算法应用于固定到知识发现过程中的大部分结构化数据以查找模式。Web 挖掘有各种应用,例如 ... 阅读更多

Web挖掘中的PageRank算法是什么?

Ginni
更新于 2022年2月16日 06:00:55

5K+ 次查看

PageRank 是一种客观且机械地对网页进行评分的方法,同时关注人类兴趣。网页搜索引擎必须应对缺乏经验的客户和操纵传统排名服务的网页。一些计算网页可复制性的评估方法对操纵免疫力不足。任务是利用 Web 的超链接结构来生成每个网页的全局重要性排名。此排名称为 PageRank。Web 的机制依赖于一个大约有 1.5 亿个节点(网页)和 17 亿条边(超链接)的图。如果网页 A 和 B 链接到... 阅读更多

广告