- AWS Glue 教程
- AWS Glue - 首页
- AWS Glue - 简介
- AWS Glue - 快速入门
- AWS Glue - 数据目录
- AWS Glue - Amazon S3 集成
- AWS Glue - 爬虫
- AWS Glue - 性能优化
- AWS Glue - 成本优化
- AWS Glue 资源
- AWS Glue - 快速指南
- AWS Glue - 资源
- AWS Glue - 讨论
AWS Glue - 快速入门
为您的第一个作业设置 AWS Glue
按照以下步骤设置您的第一个 AWS Glue 作业:
步骤 1:先决条件
您必须拥有一个AWS 账户才能使用AWS Glue。您应该拥有IAM 角色。它允许 AWS Glue 访问您在 Amazon S3、RDS 或任何其他数据源中的数据。
此外,您应该将数据存储在 Amazon S3、RDS 或其他受支持的数据库中。
步骤 2:设置 AWS Glue 数据目录
首先,在 Glue 数据目录中创建一个数据库。接下来,您需要设置一个爬虫来扫描和分类您的数据源(例如 Amazon S3)。
爬虫的作用是自动检测数据类型并在您的 Glue 数据目录中创建元数据表。
步骤 3:在 AWS Glue 中创建一个新作业
数据编目完成后,转到AWS Glue 控制台并选择作业。然后,单击添加作业以创建一个新的 ETL 作业。
接下来,您需要配置作业。使用以下选项进行配置:
- 命名您的作业。
- 选择 Glue 将使用的IAM 角色。
- 选择您的ETL 脚本源(自动生成或自定义编写)。
- 定义数据源(Amazon S3、RDS 等)和目标
这是可选的,但最好在您的作业脚本中添加转换或过滤器。
步骤 4:运行您的 Glue 作业
设置完成后,查看作业设置并单击运行作业。AWS Glue 将根据定义的 ETL 脚本开始处理数据。
现在您可以在AWS Glue 控制台的“作业”部分监控作业进度。
步骤 5:验证输出
要验证输出,作业完成后,检查目标位置(例如 Amazon S3)。传输的数据应成功加载到那里。
创建 AWS Glue 爬虫和数据库
AWS Glue 的关键组件之一是爬虫,它会自动发现新数据,识别其模式,并相应地更新数据目录。以下是为您的数据创建 AWS Glue 爬虫和数据库的步骤。
步骤 1:设置您的 AWS Glue 数据库
在 AWS Glue 中创建爬虫之前,您需要设置一个数据库。此数据库将充当数据源元数据的容器。
按照以下步骤设置数据库:
- 首先,登录到 AWS Glue 控制台。
- 在左侧导航窗格中,单击数据目录部分下的数据库。
- 选择添加数据库并输入数据库名称(例如,my-data-catalog)。
- 最后,单击创建按钮,您的数据库即可使用。
步骤 2:创建 AWS Glue 爬虫
首先,转到AWS Glue 控制台并导航到爬虫部分。接下来,单击创建爬虫按钮。
现在,输入爬虫的名称(例如,my-data-crawler)。
您还需要定义数据源。这可以是 Amazon S3、DynamoDB 或任何存储您数据的受支持数据源。
接下来,在配置安全设置部分,设置允许 AWS Glue 访问您的数据的IAM 角色。然后,指定您之前创建的目标数据库。爬虫将在其中存储其发现的元数据。
您可以将爬虫安排为按需运行或定期运行以保持元数据最新。最后,查看您的设置并单击完成。
步骤 3:运行爬虫
设置爬虫后,首先返回 Glue 控制台的“爬虫”部分并选择您新创建的爬虫。
接下来,单击运行爬虫以启动该过程。爬虫完成后,它将使用它发现的每个数据集的表和元数据填充 Glue 数据目录。