2K+ 阅读量
提取方法在很大程度上取决于源规则以及目标数据仓库环境中的业务需求。要提取的信息的大致数量以及 ETL 过程中的阶段(初始加载或记录维护)也可能影响如何从逻辑和物理视图的角度来确定提取方法。有两种类型的提取方法,包括逻辑提取方法和物理提取方法。逻辑提取方法有两种类型的逻辑提取如下:完整提取 - 数据完全从源系统中提取。由于这种... 阅读更多
4K+ 阅读量
提取是从源系统提取信息以在数据仓库环境中进一步使用的服务。它是 ETL 过程的第一步。提取后,这些数据可以被转换并加载到数据仓库中。数据仓库的源系统通常是事务处理系统。对于销售分析数据仓库,源系统可以是订单输入系统,该系统记录所有当前的订单活动。数据提取是指数据被考虑并移动以从数据源(例如数据库)中获取相关信息的过程... 阅读更多
17K+ 阅读量
人工神经网络是一个基于生物神经网络的系统。它是生物神经系统的模拟。人工神经网络的特点是存在多种架构,因此需要多种算法方法,但尽管是一个复杂的系统,神经网络却非常简单。这些网络是主管工具箱中独特的信号处理技术之一。该领域是高度跨学科的,但此方法将限制对工程视角的关注。在工程学中,神经网络执行两个主要功能,即模式分类器和非线性自适应滤波器。人工神经... 阅读更多
16K+ 阅读量
剪枝是减少决策树大小的过程。它可以通过定义树的大小或删除支持很少权重的树部分来降低过度拟合的风险。剪枝通过修剪那些由于噪声或异常值而在训练数据中遵循异常的树枝来帮助,并以一种增强树的泛化能力的方式来帮助原始树。各种方法通常使用统计度量来删除最不可靠的部分,通常会导致更快的分类以及树正确分类独立测试数据的能力的提高。有... 阅读更多
3K+ 阅读量
决策树是一种类似流程图的树结构,其中每个内部节点表示对一个属性的测试,每个分支表示测试的结果,叶节点表示类或类分布。树中最顶部的节点是根节点。学习决策树的算法算法 - 从给定的训练数据中创建一棵决策树。输入 - 由离散值属性描述的训练样本;属性集,属性列表。输出 - 一棵决策树。方法创建节点 N;如果样本全部属于同一类 C,则返回 N 作为标记为类 C 的叶节点如果... 阅读更多
8K+ 阅读量
基于统计的算法主要有两类,如下:回归 - 回归问题处理根据输入值评估输出值。当用于分类时,输入值是数据库中的值,输出值表示类。回归可用于解释分类问题,但它也用于其他应用,例如预测。回归最基本的类型是简单线性回归,它只包含一个预测变量和一个预测结果。可以使用两种不同的方法将回归用于实现分类,如下:划分 - 数据被划分... 阅读更多
11K+ 阅读量
以下是一些可用于数据的预处理步骤,以帮助提高分类或预测阶段的准确性、效率和可扩展性:数据清理 - 这表示通过使用平滑方法和处理缺失值(例如,用该属性中最常出现的值或基于统计数据的最可能的值替换缺失值)来消除或减少噪声的数据预处理。尽管各种分类算法具有一些处理噪声或缺失信息的功能,但此步骤有助于减少学习过程中的混淆。相关性... 阅读更多
409 阅读量
分类是一种数据挖掘方法,用于预测数据实例的类成员关系。这是一个两步过程。在第一步中,构建一个模型来定义一组预定义的数据类或概念。该模型是通过考虑由属性定义的数据库元组来构建的。每个元组都被认为属于一个预定义的类,如其中一个属性所决定,该属性称为类标签属性。在分类的框架中,数据元组也称为样本、示例或对象。用于构建模型的分析数据元组共同构成训练数据集。单个... 阅读更多
355 阅读量
遗传算法是使用遗传继承过程的数学模型。它们已成功应用于各种分析问题。数据挖掘可以将人类理解与信息的自动分析结合起来,以发现模式或关键关系。给定一个用多个变量表示的大型数据库,目标是有效地找到数据库中最有趣的模式。遗传算法已被用于在某些软件中识别有趣的模式。它们通常用于数据挖掘以提高其他算法(例如决策树算法或关联规则)的性能。遗传算法需要特定数据... 阅读更多
659 阅读量
神经网络是一系列算法,试图通过模仿人脑工作方式的过程来识别一组数据中的基本关系。从这个意义上说,神经网络指的是神经元的系统,无论是生物的还是人工的。神经网络几乎适用于任何预测变量(自变量、输入)和预测变量(因变量、输出)之间存在关系的情况,即使这种关系非常复杂并且不容易用“相关性”或“组间差异”的常用术语来表达。神经网络有各种应用,如下:检测... 阅读更多