敏捷数据科学 - 简介

敏捷数据科学是一种将数据科学与敏捷方法结合用于Web应用程序开发的方法。它关注数据科学过程的输出，以便对组织产生影响。数据科学包括构建描述研究过程的应用程序，包括分析、交互式可视化以及现在的应用机器学习。

敏捷数据科学的主要目标是：

记录和指导解释性数据分析，以发现并遵循通向引人注目的产品的关键路径。

敏捷数据科学遵循以下原则：

持续迭代

此过程涉及持续迭代，创建表格、图表、报表和预测。构建预测模型需要多次迭代特征工程，包括提取和产生洞见。

这是生成的输出清单。甚至可以说，失败的实验也有输出。跟踪每次迭代的输出将有助于在下次迭代中创建更好的输出。

原型实验涉及分配任务并根据实验生成输出。在给定的任务中，我们必须迭代以获得洞见，这些迭代可以最好地解释为实验。

软件开发生命周期包括不同的阶段，其中数据对于以下方面至关重要：

数据集成为更好的前景和输出铺平了道路。

上述金字塔价值描述了“敏捷数据科学”开发所需的层级。它从基于需求的记录收集和单个记录的整理开始。在数据清洗和聚合之后创建图表。聚合数据可用于数据可视化。报表以适当的结构、元数据和数据标签生成。从顶部开始的第二层包括预测分析。预测层是创造更多价值的地方，但它有助于创建良好的预测，重点关注特征工程。

最顶层涉及行动，有效地驱动数据的价值。“人工智能”是这一实施的最佳例证。

打印页面