AWS Glue - 简介

AWS Glue 是亚马逊网络服务 (AWS) 提供的一种完全托管的无服务器数据集成云服务。它旨在帮助用户准备和转换数据，以用于分析、机器学习和应用程序开发。使用 AWS Glue，您可以连接到 70 多个不同的数据源，并在集中式数据目录中管理您的数据。

作为一项无服务器数据集成服务，AWS Glue 自动化了与 ETL（提取、转换、加载）流程相关的大部分工作。它简化了数据在各种来源和目标之间提取、清理、丰富和移动的过程。

AWS Glue 也非常容易与其他 AWS 服务（如 Amazon S3、RDS、Redshift 和 Athena）集成。此功能使其成为希望构建数据湖或数据仓库的组织的理想选择。

AWS Glue 的关键组件

下面描述了 AWS Glue 的关键组件：

Glue 数据目录是一个中央存储库，用于存储有关您的数据元数据信息。它会自动扫描和组织数据，以便用户可以轻松搜索、查询和管理数据集。它还可以很好地与 AWS 工具（如 Redshift 和 Athena）连接，使用户能够流畅地访问数据。

我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终保持更新。

爬虫在 AWS Glue 中的作用是自动发现新数据，识别其模式，并相应地更新数据目录。它们确保元数据始终是最新的。

Glue 作业用于定义和管理 ETL 工作流。它们提取数据，使用 Apache Spark 对其进行转换，并将其加载到目标系统中。您可以按需运行作业，或将其安排在指定的时间间隔运行。Glue 作业是数据转换过程的核心。

借助触发器，用户可以根据计划或特定事件自动执行作业。触发器的使用有助于自动化重复性任务或构建复杂的数据管道。

AWS Glue 使用 Jupyter Notebook 提供 IDE（交互式开发环境）。您可以交互式地运行查询、分析数据和开发 Glue 作业。

顾名思义，Glue Studio 是一个可视化界面，用于创建、运行和监控 ETL 工作流，无需编写代码。它对非技术用户或不熟悉 Apache Spark 的用户很有用。

我们可以将 AWS Glue 的重要功能分为以下三类：

AWS Glue 使您能够以结构化的方式组织元数据，以便您可以轻松地在一个位置存储、搜索和管理所有数据。

AWS Glue 爬虫会自动发现数据并将其集成到您的数据目录中。它验证并控制对数据库和表的访问。

您可以在 Glue Studio 中定义您的 ETL 流程，它会自动为此流程生成代码。AWS Glue 的作业笔记本提供了需要最少设置的无服务器笔记本。使用这些笔记本，您可以快速开始您的项目。

AWS Glue 具有敏感数据检测功能，允许您在数据湖和管道中定义、识别和处理敏感数据。AWS Glue 允许用户交互式地探索和准备数据。

您可以使用爬虫或基于事件的触发器自动执行作业和 AWS Glue 作业。它允许您使用您选择的引擎（Apache Spark 或 Ray）运行作业。

您可以组织和管理不同爬虫、作业和触发器的 ETL 流程和集成活动。

打印页面