2K+ 次浏览
度量可以组织成三个要素,包括分布式、代数和整体式。这取决于使用的聚合函数的类型。分布式 - 如果聚合函数可以以如下所示的分布式方式计算,则该函数是分布式的。假设数据被独立地划分为n个集合。它可以使用该服务对每个分区进行处理,从而产生n个聚合值。如果使用该函数对n个聚合值进行处理的结果与使用该函数对整个数据集(无需分区)进行处理的结果相同,则该函数可以以分布式方式进行计算。例如,count()可以……阅读更多
基于熵的离散化是一种监督的、自顶向下的分割方法。它在计算和保持分割点(用于分离属性范围的数据值)时会探索类分布数据。它可以离散化一个统计属性A,该方法选择熵最小的A值作为分割点,并递归地划分所得区间以显示分层离散化。具体的离散化形成A的概念层次结构。设D包含由一组属性和一个类标签属性描述的数据元组。类标签属性支持每个元组的类数据。基于熵的离散化的基本方法是……阅读更多
190 次浏览
其效用在于可以限制小波变换后的数据。可以通过仅保存小波系数的主要部分的一小部分来保留信息的压缩近似值。例如,可以保留高于某个用户定义阈值的所有小波系数。其他一些系数设置为0。由此产生的数据描述非常稀疏,因此如果在小波空间中实现,则可以利用数据稀疏性的服务在计算上非常快。该方法还可以消除噪声,而不会平滑数据的关键特征,使其效率……阅读更多
169 次浏览
属性子集选择通过去除无关或冗余属性(或维度)来减少数据集的大小。属性子集选择的目的是发现一个最小的属性集,使得数据的后续类概率分布尽可能接近使用所有属性获得的原始分布。对于n个属性,存在2n个可能的子集。对属性的最佳子集进行穷举搜索可能非常昂贵,特别是当n和类数增加时。因此,通常使用探索减少搜索空间的启发式方法进行属性子集选择。这些方法……阅读更多
1K+ 次浏览
趋势分析定义了从时间序列中提取行为模型的技术,这些行为模型可能被噪声部分或完全隐藏。趋势分析的方法通常用于检测疾病出现的爆发和意外增加或减少,监测疾病趋势,评估疾病控制项目和政策的有效性,以及评估医疗项目和政策的成功情况等。可以使用各种技术来检测项目系列中的趋势。平滑是一种用于去除时间序列中非系统性行为的方法。平滑通常采取……阅读更多
7K+ 次浏览
时间数据挖掘定义了从大型时间数据集中提取非平凡的、隐含的和潜在的关键数据的过程。时间数据是一系列主要数据类型,通常是数值,它处理从时间数据中收集有益的知识。时间数据挖掘的目标是利用来自……的一组方法,在由一系列称为时间序列的名义符号组成的更高序列数据中找到时间模式、意外趋势或一些隐藏的关系,该序列由一系列称为时间序列的连续实值分量组成。阅读更多
聚类分析是统计学的一个分支,多年来一直被广泛研究。使用这种技术的好处是可以直接从数据中发现有趣的结构或聚类,而无需利用任何背景知识,例如概念层次结构。据报道,在统计学中使用的聚类算法,如PAM或CLARA,从计算复杂度的角度来看效率低下。根据效率的考虑,开发了一种名为CLARANS(基于随机搜索的大型应用程序聚类)的新算法用于聚类分析。PAM(围绕medoids的分区)- 假设有n个对象,PAM找到k……阅读更多
998 次浏览
空间数据挖掘是指将数据挖掘应用于空间模型。在空间数据挖掘中,分析师使用地理或空间数据来进行商业智能或不同的结果。这需要特定的方法和资源才能将地理数据转换成相关且有益的格式。空间数据挖掘中涉及的一些挑战包括识别与推动研究项目的疑问相关的模式或发现对象。分析师可以在大型数据库区域或其他完全巨大的数据集中查看,以仅发现相关数据,使用GIS/GPS工具或类似系统。空间……阅读更多
3K+ 次浏览
Web挖掘定义了使用数据挖掘技术提取有益模式趋势和数据(通常借助Web)的过程,通过处理来自基于Web的记录和服务、服务器日志和超链接的数据。Web挖掘旨在通过对数据进行分组和分析以获得重要见解来发现Web信息中的设计。Web挖掘可以广泛地视为将适应性数据挖掘方法应用于Web,而数据挖掘则表示为将算法应用于固定到知识发现过程中的大部分结构化数据以查找模式。有各种各样的……阅读更多
5K+ 次浏览
PageRank是一种客观且机械地对网页进行评级的方法,它关注人类的兴趣。网络搜索引擎必须与缺乏经验的客户和操纵传统排名服务的页面进行组织。一些计算网页可复制性质的评估方法对操纵没有免疫力。任务是利用Web的超链接结构来生成每个网页的全局重要性排名。此排名称为PageRank。Web的机制依赖于一个具有大约1.5亿个节点(网页)和17亿条边(超链接)的图。如果网页A和B链接到……阅读更多