敏捷数据科学 - 简介



敏捷数据科学是一种将数据科学与敏捷方法结合用于Web应用程序开发的方法。它关注数据科学过程的输出,以便对组织产生影响。数据科学包括构建描述研究过程的应用程序,包括分析、交互式可视化以及现在的应用机器学习。

敏捷数据科学的主要目标是:

记录和指导解释性数据分析,以发现并遵循通向引人注目的产品的关键路径。

敏捷数据科学遵循以下原则:

持续迭代

此过程涉及持续迭代,创建表格、图表、报表和预测。构建预测模型需要多次迭代特征工程,包括提取和产生洞见。

中间输出

这是生成的输出清单。甚至可以说,失败的实验也有输出。跟踪每次迭代的输出将有助于在下次迭代中创建更好的输出。

Learn Data Science in-depth with real-world projects through our Data Science certification course. Enroll and become a certified expert to boost your career.

原型实验

原型实验涉及分配任务并根据实验生成输出。在给定的任务中,我们必须迭代以获得洞见,这些迭代可以最好地解释为实验。

数据集成

软件开发生命周期包括不同的阶段,其中数据对于以下方面至关重要:

  • 客户

  • 开发人员,以及

  • 企业

数据集成为更好的前景和输出铺平了道路。

金字塔数据价值

Pyramid Data Value

上述金字塔价值描述了“敏捷数据科学”开发所需的层级。它从基于需求的记录收集和单个记录的整理开始。在数据清洗和聚合之后创建图表。聚合数据可用于数据可视化。报表以适当的结构、元数据和数据标签生成。从顶部开始的第二层包括预测分析。预测层是创造更多价值的地方,但它有助于创建良好的预测,重点关注特征工程。

最顶层涉及行动,有效地驱动数据的价值。“人工智能”是这一实施的最佳例证。

广告