
- 敏捷数据科学教程
- 敏捷数据科学 - 首页
- 敏捷数据科学 - 简介
- 方法论概念
- 敏捷数据科学 - 流程
- 敏捷工具及安装
- 敏捷中的数据处理
- SQL 与 NoSQL
- NoSQL & 数据流编程
- 收集和显示记录
- 数据可视化
- 数据增强
- 使用报表
- 预测的作用
- 使用 PySpark 提取特征
- 构建回归模型
- 部署预测系统
- 敏捷数据科学 - SparkML
- 修复预测问题
- 提高预测性能
- 利用敏捷和数据科学创造更好的场景
- 敏捷的实施
- 敏捷数据科学有用资源
- 敏捷数据科学 - 快速指南
- 敏捷数据科学 - 资源
- 敏捷数据科学 - 讨论
敏捷工具及安装
在本章中,我们将学习不同的敏捷工具及其安装。敏捷方法论的开发栈包括以下组件集:
事件
事件是在发生或记录时连同其特征和时间戳一起发生的事件。
事件可以有多种形式,例如服务器、传感器、金融交易或用户在我们应用程序中采取的操作。在本完整教程中,我们将使用 JSON 文件,这将有助于在不同的工具和语言之间进行数据交换。
收集器
收集器是事件聚合器。它们以系统的方式收集事件,以存储和聚合大量数据,并将它们排队以供实时工作程序处理。
Learn Data Science in-depth with real-world projects through our Data Science certification course. Enroll and become a certified expert to boost your career.
分布式文档
这些文档包括多节点(多个节点),它们以特定格式存储文档。在本教程中,我们将重点关注 MongoDB。
Web 应用程序服务器
Web 应用程序服务器通过客户端以 JSON 格式提供数据进行可视化,且开销最小。这意味着 Web 应用程序服务器有助于测试和部署使用敏捷方法论创建的项目。
现代浏览器
它使现代浏览器或应用程序能够将数据作为交互式工具呈现给我们的用户。
本地环境设置
为了管理数据集,我们将重点关注包含用于管理 excel、csv 和更多文件的工具的 python 的 Anaconda 框架。安装 Anaconda 框架后,其仪表板如下所示。它也称为“Anaconda Navigator”:

导航器包含“Jupyter 框架”,这是一个笔记本系统,有助于管理数据集。启动框架后,它将如以下所示在浏览器中托管:

广告