626 次浏览
数据传播是根据传播规则将数据从一个或多个源数据仓库分配到另一个本地访问数据库的过程。数据仓库需要每天管理大量数据。数据仓库可以从少量信息开始,并通过不断地与多个数据源共享和接收信息而日益增长。随着数据共享的推进,数据仓库管理成为一个主要问题。需要数据库管理来更有效地管理公司信息及其多个子集、安排和时间范围。这些数据资源需要不断更新…… 阅读更多
45K+ 次浏览
查询优化对于关系数据库的性能至关重要,尤其是在执行复杂的 SQL 语句时。查询优化器决定实现每个查询的最佳方法。例如,查询优化器会选择是否为给定查询使用索引,以及在连接多个表时使用哪些连接方法。这些决定对 SQL 性能有巨大影响,查询优化是每个应用程序的关键技术,从操作系统到数据仓库和分析系统,再到内容管理系统。查询优化的各种原则如下:了解…… 阅读更多
3K+ 次浏览
贝叶斯分类器是统计分类器。它们可以预测类成员概率,例如给定样本属于特定类的概率。贝叶斯分类器在应用于大型数据库时也表现出很高的准确性和速度。一旦定义了类别,系统应该推断控制分类的规则,因此系统应该能够找到每个类别的描述。这些描述应该只参考训练集的预测属性,以便只有正例应该满足描述,而不是负例。如果一个规则…… 阅读更多
1K+ 次浏览
数据聚合是一个将数据收集并以汇总形式表示的过程,其目的包括统计分析。这是一种信息和数据挖掘程序,其中数据被搜索、收集并以基于报告的汇总格式呈现,以实现特定的业务目标或流程和/或进行人工分析。数据聚合可以手动实现,也可以通过专用软件实现。聚合的目标是根据特定变量(包括年龄、职业或收入)获取有关特定团队的更多数据。然后,有关此类团队的数据可用于网站个性化,以选择内容和广告…… 阅读更多
2K+ 次浏览
数据协调表示数据迁移期间记录验证的一个阶段。在此阶段,将目标数据与源信息进行比较,以确保迁移结构正在分配数据。数据验证和协调定义了一种技术,该技术使数值模型能够处理数据。业务智能中信息质量的一个重要方面是信息的一致性。与数据仓库一样,业务智能组合和转换数据并将其保存,以便可以访问数据进行分析和解释。必须确保多个处理步骤之间的数据一致性…… 阅读更多
提取方法极大地取决于源规则以及目标数据仓库环境中的业务需求。要提取的信息估计量以及 ETL 过程中的阶段(原始加载或记录保存)也可能强制确定从逻辑和物理视图如何提取。有两种类型的提取方法,包括逻辑提取方法和物理提取方法。逻辑提取方法有两种逻辑提取类型如下:完全提取 - 数据完全从源系统提取。因为这…… 阅读更多
4K+ 次浏览
提取是从源系统提取信息的服务,以便在数据仓库环境中提供更多帮助。这是 ETL 过程的第一步。提取后,可以更改此数据并将其加载到数据仓库中。数据仓库的源系统通常是事务处理软件。对于销售分析数据仓库,源系统可以是输入所有当前订单活动的数据的订单输入系统。数据提取是指考虑数据并将其移动以从数据源(例如数据库)中获取相关信息…… 阅读更多
17K+ 次浏览
人工神经网络是位于生物神经网络服务上的系统。它是生物神经系统的模拟。人工神经网络的特点是存在多种架构,因此需要多种算法方法,但尽管是一个复杂的系统,神经网络却几乎很简单。这些网络是主管工具箱中独特的信号处理技术之一。该领域是高度跨学科的,但此方法将限制对工程观点的关注。在工程中,神经网络提供两个重要功能:模式分类器和非线性自适应滤波器。人工神经…… 阅读更多
16K+ 次浏览
剪枝是减小决策树大小的过程。它可以通过定义树的大小或消除支持很少能力的树的区域来降低过度拟合的风险。剪枝通过修剪遵循训练信息中异常值(由于噪声或异常值)的分支来支持,并以增强树的泛化效率的方式来支持原始树。各种方法通常使用统计度量来删除最不可靠的分支,这通常会导致更快的分类和提高树正确分类独立测试数据的能力。有…… 阅读更多
决策树是一种类似流程图的树状机制,其中每个内部节点表示对属性的测试,每个分支定义测试的结果,叶节点描述类或类分布。树中最高的节点是根节点。学习决策树的算法算法 - 从给定的训练信息创建一个决策树。输入 - 由离散值属性描述的训练样本、样本;学生属性集、属性列表。输出 - 决策树。方法创建一个节点 N;如果样本都是同一类 C,则返回 N 作为标记为类 C 的叶节点。如果…… 阅读更多