AWS Glue - 快速入门

为您的第一个作业设置 AWS Glue

按照以下步骤设置您的第一个 AWS Glue 作业：

您必须拥有一个AWS 账户才能使用AWS Glue。您应该拥有IAM 角色。它允许 AWS Glue 访问您在 Amazon S3、RDS 或任何其他数据源中的数据。

此外，您应该将数据存储在 Amazon S3、RDS 或其他受支持的数据库中。

首先，在 Glue 数据目录中创建一个数据库。接下来，您需要设置一个爬虫来扫描和分类您的数据源（例如 Amazon S3）。

爬虫的作用是自动检测数据类型并在您的 Glue 数据目录中创建元数据表。

数据编目完成后，转到AWS Glue 控制台并选择作业。然后，单击添加作业以创建一个新的 ETL 作业。

接下来，您需要配置作业。使用以下选项进行配置：

这是可选的，但最好在您的作业脚本中添加转换或过滤器。

设置完成后，查看作业设置并单击运行作业。AWS Glue 将根据定义的 ETL 脚本开始处理数据。

现在您可以在AWS Glue 控制台的“作业”部分监控作业进度。

要验证输出，作业完成后，检查目标位置（例如 Amazon S3）。传输的数据应成功加载到那里。

AWS Glue 的关键组件之一是爬虫，它会自动发现新数据，识别其模式，并相应地更新数据目录。以下是为您的数据创建 AWS Glue 爬虫和数据库的步骤。

在 AWS Glue 中创建爬虫之前，您需要设置一个数据库。此数据库将充当数据源元数据的容器。

按照以下步骤设置数据库：

首先，转到AWS Glue 控制台并导航到爬虫部分。接下来，单击创建爬虫按钮。

现在，输入爬虫的名称（例如，my-data-crawler）。

您还需要定义数据源。这可以是 Amazon S3、DynamoDB 或任何存储您数据的受支持数据源。

接下来，在配置安全设置部分，设置允许 AWS Glue 访问您的数据的IAM 角色。然后，指定您之前创建的目标数据库。爬虫将在其中存储其发现的元数据。

您可以将爬虫安排为按需运行或定期运行以保持元数据最新。最后，查看您的设置并单击完成。

设置爬虫后，首先返回 Glue 控制台的“爬虫”部分并选择您新创建的爬虫。

接下来，单击运行爬虫以启动该过程。爬虫完成后，它将使用它发现的每个数据集的表和元数据填充 Glue 数据目录。

打印页面