
- 敏捷数据科学教程
- 敏捷数据科学 - 首页
- 敏捷数据科学 - 简介
- 方法论概念
- 敏捷数据科学 - 流程
- 敏捷工具及安装
- 敏捷中的数据处理
- SQL 与 NoSQL
- NoSQL 与数据流编程
- 收集和显示记录
- 数据可视化
- 数据丰富
- 使用报表
- 预测的作用
- 使用 PySpark 提取特征
- 构建回归模型
- 部署预测系统
- 敏捷数据科学 - SparkML
- 修复预测问题
- 提高预测性能
- 用敏捷和数据科学创造更好的场景
- 敏捷的实施
- 敏捷数据科学有用资源
- 敏捷数据科学 - 快速指南
- 敏捷数据科学 - 资源
- 敏捷数据科学 - 讨论
敏捷数据科学 - 预测的作用
在本章中,我们将了解预测在敏捷数据科学中的作用。交互式报表揭示了数据的不同方面。预测构成敏捷冲刺的第四层。

在进行预测时,我们总是参考过去的数据并将其用作未来迭代的推论。在这个完整过程中,我们将数据从历史数据的批量处理过渡到关于未来的实时数据。
预测的作用包括以下内容 -
预测有助于预测。一些预测基于统计推断。一些预测基于专家的意见。
统计推断涉及各种预测。
有时预测是准确的,有时预测是不准确的。
预测分析
预测分析包括来自预测建模、机器学习和数据挖掘的各种统计技术,这些技术分析当前和历史事实以预测未来和未知事件。
预测分析需要训练数据。训练数据包括自变量和因变量。因变量是用户试图预测的值。自变量是描述我们想要根据因变量预测的事物的特征。
对特征的研究称为特征工程;这对于进行预测至关重要。数据可视化和探索性数据分析是特征工程的一部分;这些构成了敏捷数据科学的核心。

进行预测
在敏捷数据科学中,有两种进行预测的方法 -
回归
分类
构建回归或分类完全取决于业务需求及其分析。连续变量的预测导致回归模型,而分类变量的预测导致分类模型。
回归
回归考虑包含特征的示例,从而产生数值输出。
分类
分类获取输入并产生分类分类。
注意 - 定义统计预测输入并使机器能够学习的示例数据集称为“训练数据”。
广告