2K+ 浏览量
提取方法在很大程度上取决于源规则,也取决于目标数据仓库环境中的业务需求。要提取的信息的估计数量以及ETL过程中的阶段(原始加载或记录保留)也可能迫使从逻辑和物理视图确定如何提取。有两种类型的提取方法,包括逻辑提取方法和物理提取方法。逻辑提取方法有两种类型的逻辑提取如下:完整提取 - 数据完全从源系统中提取。因为这... 阅读更多
4K+ 浏览量
提取是从源系统中提取信息的服务,以便在数据仓库环境中进一步使用。它是ETL过程的第一步。提取后,这些数据可以被转换并加载到数据仓库中。数据仓库的源系统通常是事务处理软件。对于销售分析数据仓库,源系统可以是订单输入系统,该系统记录所有当前的订单活动。数据提取是指考虑数据并将其移动以从数据源(如数据库)中获取相关信息... 阅读更多
17K+ 浏览量
人工神经网络是基于生物神经网络的服务系统。它是生物神经系统的模拟。人工神经网络的特点是存在多种架构,因此需要多种算法方法,但尽管是一个复杂的系统,神经网络却几乎很简单。这些网络是主管工具箱中独特的信号处理技术之一。该领域是高度跨学科的,但此方法将限制对工程视角的关注。在工程学中,神经网络执行两个主要功能,即模式分类器和非线性自适应滤波器。人工神经... 阅读更多
16K+ 浏览量
剪枝是减少决策树大小的过程。它可以通过定义树的大小或消除支持较少功效的树的区域来降低过度拟合的风险。剪枝通过修剪遵循训练数据中异常值(由于噪声或异常值)的分支来帮助,并以一种提高树的泛化效率的方式帮助原始树。各种方法通常使用统计度量来删除最不可靠的分支,通常会导致更快的分类和提高树正确分类独立测试数据的能力。有... 阅读更多
3K+ 浏览量
决策树是一种类似流程图的树结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,叶子节点表示类或类分布。树中最顶部的节点是根节点。学习决策树的算法算法 - 从给定的训练数据中创建决策树。输入 - 由离散值属性描述的训练样本;学生属性集,属性列表。输出 - 决策树。方法创建节点 N;如果样本全部属于同一类 C,则返回 N 作为标记为类 C 的叶子节点如果... 阅读更多
8K+ 浏览量
基于统计的算法主要有两种类型:回归 - 回归问题处理根据输入值评估输出值。当用于分类时,输入值是来自数据库的值,输出值定义类。回归可用于阐明分类问题,但它用于不同的应用,包括预测。回归的基本形式是简单线性回归,它只包含一个预测变量和一个预测值。可以使用两种不同的方法将回归用于实现分类,如下所示:划分 - 数据被划分为... 阅读更多
11K+ 浏览量
以下是一些可用于数据的预处理步骤,以帮助提高分类或预测阶段的准确性、有效性和可扩展性:数据清理 - 这表示对数据进行预处理以消除或减少噪声,方法是使用平滑方法和处理缺失值(例如,通过用该属性中最常出现的值或基于统计的最佳可能值替换缺失值)。尽管各种分类算法具有一些处理噪声或缺失信息的功能,但此步骤可以帮助减少学习过程中的混淆。相关性... 阅读更多
409 浏览量
分类是一种数据挖掘方法,用于预测数据实例的类成员资格。这是一个两步过程。第一步,构建一个模型,定义一组预定义的数据类或概念。该模型是通过考虑由属性定义的数据库元组来构建的。每个元组都被认为属于一个预定义的类,由其中一个属性决定,称为类标签属性。在分类的框架中,数据元组也被称为样本、示例或对象。用于构建模型的分析数据元组共同构成训练数据集。单个... 阅读更多
355 浏览量
遗传算法是使用遗传继承过程的数学结构。它们已成功应用于各种分析问题。数据挖掘可以将人类理解与信息的自动分析结合起来,以发现模式或关键关系。给定一个用多个变量表示的大型数据库,目标是有效地找到数据库中最有趣的模式。遗传算法已被用于识别某些软件中的有趣模式。它们通常用于数据挖掘以提高其他算法(如决策树算法、另一个关联规则)的性能。遗传算法需要特定的数据... 阅读更多
659 浏览量
神经网络是由一系列算法组成的网络,它试图通过模拟人脑运作方式的过程来识别数据集中的基本关系。从这个意义上说,神经网络指的是神经元系统,无论是生物神经元还是人工神经元。神经网络几乎适用于任何存在预测变量(自变量,输入)和被预测变量(因变量,输出)之间关系的情况,即使这种关系非常复杂,并且不容易用通常的“相关性”或“组间差异”等术语来表达。神经网络有各种应用,如下所示:检测... 阅读更多