数据分析的生命周期阶段


数据分析的生命周期阶段

**数据分析生命周期**是一个循环过程,它通过六个阶段解释了如何创建、收集、处理、实施和分析信息以实现不同的目标。

数据发现

这是设定项目目标并找到实现完整数据分析生命周期方法的初始阶段。从定义您的业务领域开始,并确保您拥有足够的资源(时间、技术、数据和人员)来实现您的目标。

此阶段最大的挑战是积累足够的信息。您需要起草一个分析计划,这需要一些认真的准备工作。

积累资源

首先,您必须分析您打算开发的模型。然后确定您需要获取多少领域知识才能实现这些模型。

接下来要做的重要事情是评估您是否拥有足够的技能和资源来使您的项目取得成功。

构建问题

在满足客户期望的过程中,最有可能出现问题。因此,您需要识别与项目相关的问题并向您的客户解释这些问题。此过程称为“构建”。您必须准备一份问题陈述,解释当前情况以及未来可能出现的挑战。您还需要定义项目的目标,包括项目的成功和失败标准。

形成初始假设

收集完所有客户需求后,您必须在探索初始数据后制定初始假设。

数据准备和处理

数据准备和处理阶段涉及在进入模型构建过程之前收集、处理和调整数据。

识别数据源

您必须识别各种数据源,并分析在给定时间范围内您可以积累多少和哪种数据。评估数据结构,探索它们的属性并获取所需的所有工具。

数据收集

您可以使用三种方法收集数据

**数据采集:**您可以通过外部来源收集数据。

**数据输入:**您也可以通过数字系统或手动输入来准备数据点。

**信号接收:**您可以从数字设备(例如物联网设备和控制系统)积累数据。

模型规划

这是您必须分析数据质量并为您的项目找到合适模型的阶段。

将数据加载到分析沙箱中

分析沙箱是数据湖架构的一部分,允许您存储和处理大量数据。它可以有效地处理各种数据,例如大数据、交易数据、社交媒体数据、网络数据等等。它是一个允许您的分析师使用他们选择的 数据工具来计划和处理数据资产的环境。分析沙箱最好的部分是它的敏捷性。它使分析师能够实时处理数据并在短时间内获取必要的信息。

数据可以通过三种方式加载到沙箱中

**ETL** - 团队专家在将数据加载到沙箱之前使其符合业务规则。

**ELT** - 数据加载到沙箱中,然后根据业务规则进行转换。

**ETLT** - 它包含两个级别的数据转换,包括 ETL 和 ELT。

您收集的数据可能包含不必要的特征或空值。它可能以过于复杂的形式出现而难以预测。这就是“数据探索”可以帮助您发现数据中隐藏趋势的地方。

数据探索中涉及的步骤

  • 数据识别
  • 单变量分析
  • 多变量分析
  • 填充空值
  • 特征工程

对于模型规划,数据分析师通常使用回归技术、决策树、神经网络等。模型规划和执行最常用的工具包括 Rand PL/R、WEKA、Octave、Statista 和 MATLAB。

模型构建

模型构建是您必须在实时环境中部署计划模型的过程。它允许分析师通过获得深入的分析信息来巩固他们的决策过程。这是一个重复的过程,因为您必须根据客户的要求不断添加新功能。

您的目标是在此处预测业务决策并自定义市场策略,并开发量身定制的客户兴趣。这可以通过将模型集成到您现有的生产领域来实现。

在某些情况下,特定模型与业务目标/数据完美契合,有时则需要多次尝试。当您开始探索数据时,您需要运行特定的算法并将输出与您的目标进行比较。在某些情况下,您甚至可能需要同时运行模型的不同变体,直到获得所需的结果。

结果沟通和发布

这是您必须与客户沟通数据分析的阶段。它需要几个复杂的过程,其中您需要如何以清晰的方式向客户展示信息。您的客户没有足够的时间来确定哪些数据是必要的。因此,您必须出色地完成工作才能吸引客户的注意力。

检查数据准确性

数据是否按预期提供信息?如果不是,则您必须运行其他一些过程来解决此问题。您需要确保您处理的数据提供一致的信息。这将有助于您在总结发现时构建有说服力的论点。

突出重要发现

好吧,每个数据在构建高效项目中都发挥着重要作用。但是,一些数据继承了更强大的信息,这些信息可以真正为您的受众带来好处。在总结您的发现时,尝试将数据分类成不同的要点。

确定最合适的沟通格式

您如何传达您的发现在很大程度上说明了您作为专业人士的能力。我们建议您使用视觉演示和动画,因为它可以帮助您更快地传达信息。但是,有时您也需要采用传统方式。例如,您的客户可能需要以物理格式携带结果。他们可能还需要获取某些信息并与他人分享。

运营化

一旦您准备了一份详细的报告,其中包含您的关键发现、文档和简报,您的数据分析生命周期几乎接近尾声。下一步是衡量分析的有效性,然后再向利益相关者提交最终报告。

在此过程中,您必须移动沙箱数据并在实时环境中运行它。然后,您必须密切监控结果,确保它们与您的预期目标相匹配。如果结果与您的目标完美契合,那么您可以完成报告。否则,您必须在数据分析生命周期中退一步并进行一些更改。

更新于: 2021年3月6日

5K+ 浏览量

启动您的 职业生涯

通过完成课程获得认证

开始
广告