368 次浏览
基于约束的算法需要约束来减少频繁项集生成阶段的搜索空间(关联规则创建步骤与穷举算法相同)。约束的重要性是明确的,它们只生成对客户有意义的关联规则。该方法非常简单,规则空间减少了,其余规则使用约束。主要有三种类型的约束如下:实例约束 - 实例约束定义了如何将一对或一组实例分组到聚类分析中。从……中还有两种类型的约束…… 阅读更多
1K+ 次浏览
有两种类型的度量,例如测地距离和基于随机游走的距离。测地距离 - 图中两个顶点之间距离的一个简单度量是顶点之间的最短路径。通常,两个顶点之间的测地距离是指顶点之间最短路径的多条边的长度。对于图中不相连的两个顶点,测地距离表示为无穷大。利用测地距离,可以表示图分析和聚类的各种有用测量。给定一个图 G = (V, E),其中 V…… 阅读更多
2K+ 次浏览
在二部图中,顶点可以分成两个不相交的集合,使得每条边连接一个集合中的顶点到另一个集合中的顶点。对于 AllElectronics 用户购买数据,一组顶点定义用户,每个顶点一个用户。另一个集合定义产品,每个顶点一个产品。一条边连接用户和产品,定义用户购买的产品。二部图有各种应用,如下所示:网络搜索引擎 - 在网络搜索引擎中,搜索日志被存档到数据用户查询和…… 阅读更多
347 次浏览
几种方法已被分为三大类,包括子空间搜索技术、基于相关性的聚类技术和双聚类技术。子空间搜索技术 - 子空间搜索方法搜索多个子空间中的聚类。因此,聚类是在子空间中彼此相同的对象子集。相似性是通过传统的度量获得的,包括距离或密度。例如,CLIQUE 算法是一种子空间聚类技术。它可以在维度递增的序列中指定子空间和这些子空间中的聚类,并使用反单调性来修剪其中不存在聚类的子空间。一个更大的…… 阅读更多
443 次浏览
主动学习是一种重复性的监督学习类型,与数据充足但类标签稀缺或获取成本高昂的情况相关。学习算法是主动的,因为它可以仔细地向用户(例如,人工预言机)查询标签。用于理解概念的多个元组比典型监督学习中需要的数量要少。它用于保持成本降低,主动学习者的目标是利用尽可能少的标记示例来实现高精度。设 D 为所有正在考虑的数据。有几种方法…… 阅读更多
871 次浏览
朴素贝叶斯分类器假设类条件独立性,即,给定元组的类标签,属性的值被假定为彼此条件独立的。这简化了计算。当假设影响真实时,因此朴素贝叶斯分类器与多个分类器相比效率更高。贝叶斯信念网络定义联合条件概率分布。它们能够表示变量子集之间的类条件独立性。它们支持因果关系的图形结构,可以在其上实现学习。训练好的贝叶斯信念网络用于分类。贝叶斯信念网络也称为…… 阅读更多
166 次浏览
基于感知的分类 (PBC) 是一种基于多维可视化方法的交互式方法,使用户能够在构建决策树时结合关于数据的背景知识。通过与数据的视觉交互,用户更有可能对数据产生更深入的了解。生成的树可能比使用传统决策树归纳技术构建的树更小,因此更容易解释,同时也能达到类似的精度。PBC 需要一种像素定向方法来考虑其类标签数据的多维数据。采用圆形分割方法,将 d 维信息对象映射到一个圆…… 阅读更多
模式挖掘有各种应用,如下所示:模式挖掘通常用于在多个数据密集型应用程序中作为预处理进行噪声过滤和数据清理。例如,它可以用来探索微阵列数据,其中包含数万个维度(例如,描述基因)。模式挖掘有助于发现隐藏在数据中的内在机制和聚类。例如,给定 DBLP 数据集,频繁模式挖掘可以简单地发现有趣的聚类,例如合著者聚类(通过确定通常合作的作者)和会议聚类(通过确定多个作者和术语的共享)。这种架构…… 阅读更多
7K+ 次浏览
以下是高效计算数据立方体的一般优化技术,如下所示:排序、哈希和分组 - 必须对维度属性使用排序、哈希和分组操作来重新排序和聚类相关的元组。在立方体计算中,聚合是在共享相同维度值集的元组上实现的。因此,分析排序、哈希和分组服务以访问和分组此类数据以支持此类聚合的评估至关重要。它可以按分支、日期和项目计算总销售额。按分支和……排序元组或单元格可能更有效。 阅读更多
961 次浏览
数据仓库应用主要分为三种类型:信息处理、分析处理和数据挖掘。信息处理——它提供查询、基本的数值分析以及使用交叉表、表格、图表或图形进行文档编制的功能。数据仓库数据处理的现代趋势是开发低成本的基于Web的访问工具,并将其与Web浏览器集成。分析处理——它提供基本的OLAP操作,例如切片和切块、钻取、上卷和透视。它通常处理历史信息,包括汇总形式和详细形式。与信息处理相比,联机分析处理的主要领域在于对数据仓库数据进行多维信息分析。数... 阅读更多