190 次浏览
实用性在于小波变换后的数据可以被限制。通过仅保存小波系数主成分的一小部分,可以保留信息的压缩近似。例如,可以维护所有高于某个用户定义阈值的小波系数。其他一些系数设置为 0。由此产生的数据描述非常稀疏,因此如果在小波空间中实现,则可以利用数据稀疏性的服务在计算上非常快。该方法还有助于消除噪声,而不会平滑数据的主要特征,使其高效... 阅读更多
169 次浏览
属性子集选择通过删除不相关或冗余的属性(或维度)来减少数据集的大小。属性子集选择的目的是发现最小的属性集,使得随后数据的类概率分布尽可能接近使用所有属性获得的原始分布。对于 n 个属性,有 2n 个可能的子集。对属性的最优子集进行穷举搜索可能非常昂贵,特别是当 n 和数据类的数量增加时。因此,通常使用探索缩减搜索空间的启发式方法进行属性子集选择。这些方法... 阅读更多
1K+ 次浏览
趋势分析定义了从时间序列中提取行为模型的技术,这些行为模型可能被噪声部分或完全隐藏。趋势分析方法通常用于检测疾病出现率的爆发和意外增加或减少、监测疾病趋势、评估疾病控制计划和政策的有效性以及评估医疗保健计划和政策的成功情况等。可以使用各种技术来检测项目系列中的趋势。平滑是一种用于去除时间序列中发现的非系统行为的方法。平滑通常采用... 阅读更多
7K+ 次浏览
时间数据挖掘定义了从大量时间数据集中提取非平凡、隐含和潜在必要数据的过程。时间数据是一系列主要数据类型,通常是数值,它处理从时间数据中收集有益的知识。时间数据挖掘的目标是发现时间模式、意外趋势或高级顺序数据中的多个隐藏关系,该数据由来自称为时间序列的字母表的符号序列和称为时间序列的连续实值分量的序列组成,通过利用一组来自... 阅读更多
聚类分析是统计学的一个分支,多年来一直被广泛研究。使用这种技术的好处是可以直接从数据中发现有趣的结构或聚类,而无需利用任何背景知识,例如概念层次结构。据报道,在统计学中使用的聚类算法(如 PAM 或 CLARA)在计算复杂度方面效率低下。根据效率问题,开发了一种称为 CLARANS(基于随机搜索的大型应用聚类)的新算法用于聚类分析。PAM(围绕类中心的划分) - 假设有 n 个对象,PAM 找到 k ... 阅读更多
998 次浏览
空间数据挖掘是将数据挖掘应用于空间模型。在空间数据挖掘中,分析师使用地理或空间数据来进行商业智能或不同的结果。这需要特定的方法和资源才能将地理数据转换为相关且有益的格式。空间数据挖掘中涉及的一些挑战包括识别与推动研究项目的相关问题相关的模式或发现对象。分析师可以在大型数据库区域或其他完全庞大的数据集中查看,以仅发现相关数据,利用 GIS/GPS 工具或类似系统。空间数据挖掘的基元... 阅读更多
3K+ 次浏览
网络挖掘定义了使用数据挖掘技术提取有益的模式、趋势和数据的过程,通常在网络的帮助下,通过处理来自基于网络的记录和服务、服务器日志和超链接的数据。网络挖掘旨在通过对数据进行分组和分析以获得重要见解来发现网络信息中的设计。网络挖掘可以广泛地视为将适应性数据挖掘方法应用于网络,而数据挖掘则表示将算法应用于固定到知识发现过程中的大部分结构化数据中以查找模式。网络挖掘有各种应用... 阅读更多
5K+ 次浏览
PageRank 是一种客观且机械地对网页进行评级的方法,关注人类兴趣。网络搜索引擎必须与没有经验的客户和操纵传统排名服务的网页进行组织。一些计算网页可复制性质的评估方法对操纵没有免疫力。任务是利用网络的超链接结构来生成每个网页的全局重要性排名。此排名称为 PageRank。网络的机制依赖于大约 1.5 亿个节点(网页)和 17 亿条边(超链接)的图。如果网页 A 和 B 链接到... 阅读更多
6K+ 次浏览
网络内容挖掘被称为文本挖掘。内容挖掘是对网页的文本、图像和图形进行浏览和挖掘,以确定内容与搜索查询的相关性。此浏览是在通过结构挖掘对网页进行聚类后完成的,并根据与建议查询的相关性方法支持结果。随着网络上大量数据可用,内容挖掘支持搜索引擎的结果列表按与查询中的关键字的相关性程度排序。它可以定义为... 阅读更多
网络结构挖掘是一种工具,可以识别通过数据或直接链接连接链接的网页之间的关系。通过为网页提供网络结构模式,通过数据库技术可以发现此结构化数据。此连接使搜索引擎能够直接从内容所在的网站的连接网页中提取与搜索查询相关的数据。此完成是通过需要蜘蛛扫描网站、获取主页,然后通过参考连接连接数据来实现的,从而呈现包含所需信息的特定页面。网络挖掘... 阅读更多