2K+ 阅读量
在二分图中,顶点可以分成两个不相交的集合,使得每条边都连接一个集合中的顶点到另一个集合中的顶点。对于 AllElectronics 用户购买数据,一个顶点集合定义用户,每个顶点代表一个用户。另一个顶点集合定义产品,每个顶点代表一个产品。一条边连接一个用户和一个产品,表示用户购买了该产品。二分图有各种各样的应用,如下所示:网络搜索引擎 - 在网络搜索引擎中,搜索日志被归档到数据用户查询和... 阅读更多
347 阅读量
有几种方法被归类为三大类,包括子空间搜索技术、基于相关性的聚类技术和双聚类技术。子空间搜索技术 - 子空间搜索方法在多个子空间中搜索聚类。因此,聚类是在子空间中彼此相同的对象的子集。相似度是通过传统的度量获得的,包括距离或密度。例如,CLIQUE 算法是一种子空间聚类技术。它可以在维度增加的系列中指定子空间和这些子空间中的聚类,并使用反单调性来修剪其中不存在聚类的子空间。一个更大的... 阅读更多
443 阅读量
主动学习是一种重复性的监督学习类型,与数据足够但类标签稀缺或获取成本高的情况相关。学习算法是主动的,因为它可以仔细地查询用户(例如,人工预言机)以获取标签。用于理解该方法的概念的多元组小于典型监督学习中需要的数量。它用于保持成本降低,主动学习者的目标是利用尽可能少的标记示例来实现高精度。令 D 为正在考虑的所有数据。有几种方法... 阅读更多
871 阅读量
朴素贝叶斯分类器假设类条件独立性,即给定元组的类标签,属性的值被假设为彼此条件独立。这简化了计算。当假设影响真实时,因此朴素贝叶斯分类器与多个分类器相比效率更高。贝叶斯信念网络定义联合条件概率分布。它们使变量子集之间的类条件独立性能够被表示。它们支持因果关系的图形结构,学习可以在其上实现。训练好的贝叶斯信念网络用于分类。贝叶斯信念网络也称为... 阅读更多
166 阅读量
基于感知的分类 (PBC) 是一种基于多维可视化方法的交互式方法,使用户能够在构建决策树时整合关于数据的背景知识。通过与数据进行视觉交互,用户更有可能产生对数据的更深入的了解。由此产生的树可能比使用传统决策树归纳技术构建的树更小,因此更易于解释,同时也能达到大致相同的准确率。PBC 需要一种像素导向的方法来考虑其类标签数据的多维数据。圆段方法被采用,它将 d 维信息对象映射到一个圆... 阅读更多
模式挖掘有各种各样的应用,如下所示:模式挖掘通常用作几个数据密集型应用中预处理的噪声过滤和数据清理。例如,它可用于探索微阵列数据,其中包含数万个维度(例如,描述基因)。模式挖掘有助于发现数据中隐藏的内在机制和聚类。例如,给定 DBLP 数据集,频繁模式挖掘可以简单地发现有趣的聚类,例如合著者聚类(通过确定通常合作的作者)和会议聚类(通过确定多个作者和术语的共享)。这种架构... 阅读更多
7K+ 阅读量
以下是用于有效计算数据立方体的通用优化技术,如下所示:排序、哈希和分组 - 必须将排序、哈希和分组操作用于维度属性以重新排序和聚类关联的元组。在立方体计算中,聚合是在共享相同维度值集的元组上实现的。因此,分析排序、哈希和分组服务以访问和分组此类数据以支持此类聚合的评估至关重要。它可以按分支、日期和项目计算总销售额。按分支和... 对元组或单元格进行排序可能更有效 阅读更多
961 阅读量
数据仓库应用程序有三种类型,例如信息处理、分析处理和数据挖掘。信息处理 - 它提供查询、基本数值分析和使用交叉表、表格、图表或图形进行文档记录。数据仓库数据处理的现代趋势是制作低成本的基于 Web 的访问工具,这些工具与 Web 浏览器集成在一起。分析处理 - 它提供基本 OLAP 操作,例如切片和切块、钻取、汇总和透视。它通常处理汇总和详细形式的历史信息。联机分析处理相对于信息处理的主要领域是数据仓库数据的多分量信息分析。数据... 阅读更多
498 阅读量
数据仓库是一种可以从多个来源收集和管理数据以向企业提供重要业务洞察力的方法。数据仓库专门设计用于提供管理决策。简单来说,数据仓库定义了一个与组织的操作数据库独立维护的数据库。数据仓库系统支持多个应用程序系统的集成。它们通过为分析提供整合的历史数据的可靠平台来支持数据处理。数据仓库是一个语义一致的数据存储,作为决策支持数据模型的物理执行。它保存企业的数据... 阅读更多
1K+ 阅读量
生成名义数据概念层次结构的方法有很多,如下所示:用户或专业人员在模式级别显式指定属性的部分排序 - 名义属性或维度的概念层次结构通常包含一组属性。用户或专业人员可以通过在模式级别定义属性的部分或全部控制来简单地表示概念层次结构。例如,假设一个关系数据库包含以下属性集,例如街道、城市、省或州和国家/地区。数据仓库位置维度可以包含相同的属性。... 阅读更多