AWS Glue - 简介



AWS Glue 是亚马逊网络服务 (AWS) 提供的一种完全托管的无服务器数据集成云服务。它旨在帮助用户准备和转换数据,以用于分析、机器学习和应用程序开发。使用 AWS Glue,您可以连接到 70 多个不同的数据源,并在集中式数据目录中管理您的数据。

作为一项无服务器数据集成服务,AWS Glue 自动化了与 ETL(提取、转换、加载)流程相关的大部分工作。它简化了数据在各种来源和目标之间提取、清理、丰富和移动的过程。

AWS Glue 也非常容易与其他 AWS 服务(如 Amazon S3、RDS、Redshift 和 Athena)集成。此功能使其成为希望构建数据湖或数据仓库的组织的理想选择。

AWS Glue 的关键组件

下面描述了 AWS Glue 的关键组件:

1. Glue 数据目录

Glue 数据目录是一个中央存储库,用于存储有关您的数据元数据信息。它会自动扫描和组织数据,以便用户可以轻松搜索、查询和管理数据集。它还可以很好地与 AWS 工具(如 Redshift 和 Athena)连接,使用户能够流畅地访问数据。

2. 爬虫

我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终保持更新。

爬虫在 AWS Glue 中的作用是自动发现新数据,识别其模式,并相应地更新数据目录。它们确保元数据始终是最新的。

3. Glue 作业

Glue 作业用于定义和管理 ETL 工作流。它们提取数据,使用 Apache Spark 对其进行转换,并将其加载到目标系统中。您可以按需运行作业,或将其安排在指定的时间间隔运行。Glue 作业是数据转换过程的核心。

4. 触发器

借助触发器,用户可以根据计划或特定事件自动执行作业。触发器的使用有助于自动化重复性任务或构建复杂的数据管道。

5. 作业笔记本

AWS Glue 使用 Jupyter Notebook 提供 IDE(交互式开发环境)。您可以交互式地运行查询、分析数据和开发 Glue 作业。

6. Glue Studio

顾名思义,Glue Studio 是一个可视化界面,用于创建、运行和监控 ETL 工作流,无需编写代码。它对非技术用户或不熟悉 Apache Spark 的用户很有用。

AWS Glue 的功能

我们可以将 AWS Glue 的重要功能分为以下三类:

1. 发现和组织数据

AWS Glue 使您能够以结构化的方式组织元数据,以便您可以轻松地在一个位置存储、搜索和管理所有数据。

AWS Glue 爬虫会自动发现数据并将其集成到您的数据目录中。它验证并控制对数据库和表的访问。

2. 转换、准备和清理数据以进行分析

您可以在 Glue Studio 中定义您的 ETL 流程,它会自动为此流程生成代码。AWS Glue 的作业笔记本提供了需要最少设置的无服务器笔记本。使用这些笔记本,您可以快速开始您的项目。

AWS Glue 具有敏感数据检测功能,允许您在数据湖和管道中定义、识别和处理敏感数据。AWS Glue 允许用户交互式地探索和准备数据

3. 构建和监控数据管道

您可以使用爬虫或基于事件的触发器自动执行作业和 AWS Glue 作业。它允许您使用您选择的引擎(Apache Spark 或 Ray)运行作业。

您可以组织和管理不同爬虫、作业和触发器的 ETL 流程和集成活动。

广告