AWS Glue - 快速入门



为您的第一个作业设置 AWS Glue

按照以下步骤设置您的第一个 AWS Glue 作业:

步骤 1:先决条件

您必须拥有一个AWS 账户才能使用AWS Glue。您应该拥有IAM 角色。它允许 AWS Glue 访问您在 Amazon S3、RDS 或任何其他数据源中的数据。

此外,您应该将数据存储在 Amazon S3、RDS 或其他受支持的数据库中。

步骤 2:设置 AWS Glue 数据目录

首先,在 Glue 数据目录中创建一个数据库。接下来,您需要设置一个爬虫来扫描和分类您的数据源(例如 Amazon S3)。

爬虫的作用是自动检测数据类型并在您的 Glue 数据目录中创建元数据表。

步骤 3:在 AWS Glue 中创建一个新作业

数据编目完成后,转到AWS Glue 控制台并选择作业。然后,单击添加作业以创建一个新的 ETL 作业。

接下来,您需要配置作业。使用以下选项进行配置:

  • 命名您的作业。
  • 选择 Glue 将使用的IAM 角色
  • 选择您的ETL 脚本源(自动生成或自定义编写)。
  • 定义数据源(Amazon S3、RDS 等)和目标

这是可选的,但最好在您的作业脚本中添加转换过滤器

步骤 4:运行您的 Glue 作业

设置完成后,查看作业设置并单击运行作业。AWS Glue 将根据定义的 ETL 脚本开始处理数据。

现在您可以在AWS Glue 控制台的“作业”部分监控作业进度。

步骤 5:验证输出

要验证输出,作业完成后,检查目标位置(例如 Amazon S3)。传输的数据应成功加载到那里。

创建 AWS Glue 爬虫和数据库

AWS Glue 的关键组件之一是爬虫,它会自动发现新数据,识别其模式,并相应地更新数据目录。以下是为您的数据创建 AWS Glue 爬虫和数据库的步骤。

步骤 1:设置您的 AWS Glue 数据库

在 AWS Glue 中创建爬虫之前,您需要设置一个数据库。此数据库将充当数据源元数据的容器。

按照以下步骤设置数据库:

  • 首先,登录到 AWS Glue 控制台。
  • 在左侧导航窗格中,单击数据目录部分下的数据库
  • 选择添加数据库并输入数据库名称(例如,my-data-catalog)。
  • 最后,单击创建按钮,您的数据库即可使用。
Setup Your AWS Glue Database

步骤 2:创建 AWS Glue 爬虫

首先,转到AWS Glue 控制台并导航到爬虫部分。接下来,单击创建爬虫按钮。

Creating an AWS Glue Crawler

现在,输入爬虫的名称(例如,my-data-crawler)。

Creating an AWS Glue Crawler

您还需要定义数据源。这可以是 Amazon S3、DynamoDB 或任何存储您数据的受支持数据源。

接下来,在配置安全设置部分,设置允许 AWS Glue 访问您的数据的IAM 角色。然后,指定您之前创建的目标数据库。爬虫将在其中存储其发现的元数据。

您可以将爬虫安排为按需运行或定期运行以保持元数据最新。最后,查看您的设置并单击完成

步骤 3:运行爬虫

设置爬虫后,首先返回 Glue 控制台的“爬虫”部分并选择您新创建的爬虫。

接下来,单击运行爬虫以启动该过程。爬虫完成后,它将使用它发现的每个数据集的表和元数据填充 Glue 数据目录。

广告