- AWS Glue 教程
- AWS Glue - 首页
- AWS Glue - 简介
- AWS Glue - 入门指南
- AWS Glue - 数据目录
- AWS Glue - Amazon S3 集成
- AWS Glue - 爬虫
- AWS Glue - 性能优化
- AWS Glue - 成本优化
- AWS Glue 资源
- AWS Glue - 快速指南
- AWS Glue - 资源
- AWS Glue - 讨论
AWS Glue - 简介
AWS Glue 是亚马逊网络服务 (AWS) 提供的一种完全托管的无服务器数据集成云服务。它旨在帮助用户准备和转换数据,以用于分析、机器学习和应用程序开发。使用 AWS Glue,您可以连接到 70 多个不同的数据源,并在集中式数据目录中管理您的数据。
作为一项无服务器数据集成服务,AWS Glue 自动化了与 ETL(提取、转换、加载)流程相关的大部分工作。它简化了数据在各种来源和目标之间提取、清理、丰富和移动的过程。
AWS Glue 也非常容易与其他 AWS 服务(如 Amazon S3、RDS、Redshift 和 Athena)集成。此功能使其成为希望构建数据湖或数据仓库的组织的理想选择。
AWS Glue 的关键组件
下面描述了 AWS Glue 的关键组件:
1. Glue 数据目录
Glue 数据目录是一个中央存储库,用于存储有关您的数据元数据信息。它会自动扫描和组织数据,以便用户可以轻松搜索、查询和管理数据集。它还可以很好地与 AWS 工具(如 Redshift 和 Athena)连接,使用户能够流畅地访问数据。
2. 爬虫
我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终保持更新。
爬虫在 AWS Glue 中的作用是自动发现新数据,识别其模式,并相应地更新数据目录。它们确保元数据始终是最新的。
3. Glue 作业
Glue 作业用于定义和管理 ETL 工作流。它们提取数据,使用 Apache Spark 对其进行转换,并将其加载到目标系统中。您可以按需运行作业,或将其安排在指定的时间间隔运行。Glue 作业是数据转换过程的核心。
4. 触发器
借助触发器,用户可以根据计划或特定事件自动执行作业。触发器的使用有助于自动化重复性任务或构建复杂的数据管道。
5. 作业笔记本
AWS Glue 使用 Jupyter Notebook 提供 IDE(交互式开发环境)。您可以交互式地运行查询、分析数据和开发 Glue 作业。
6. Glue Studio
顾名思义,Glue Studio 是一个可视化界面,用于创建、运行和监控 ETL 工作流,无需编写代码。它对非技术用户或不熟悉 Apache Spark 的用户很有用。
AWS Glue 的功能
我们可以将 AWS Glue 的重要功能分为以下三类:
1. 发现和组织数据
AWS Glue 使您能够以结构化的方式组织元数据,以便您可以轻松地在一个位置存储、搜索和管理所有数据。
AWS Glue 爬虫会自动发现数据并将其集成到您的数据目录中。它验证并控制对数据库和表的访问。
2. 转换、准备和清理数据以进行分析
您可以在 Glue Studio 中定义您的 ETL 流程,它会自动为此流程生成代码。AWS Glue 的作业笔记本提供了需要最少设置的无服务器笔记本。使用这些笔记本,您可以快速开始您的项目。
AWS Glue 具有敏感数据检测功能,允许您在数据湖和管道中定义、识别和处理敏感数据。AWS Glue 允许用户交互式地探索和准备数据。
3. 构建和监控数据管道
您可以使用爬虫或基于事件的触发器自动执行作业和 AWS Glue 作业。它允许您使用您选择的引擎(Apache Spark 或 Ray)运行作业。
您可以组织和管理不同爬虫、作业和触发器的 ETL 流程和集成活动。