Amazon S3 与 AWS Glue 集成

使用 AWS Glue 将数据存储在 Amazon S3 中

Amazon S3 (简单存储服务) 是一种灵活可靠的存储服务，非常适合管理大型数据集。AWS Glue 是一种提取、转换和加载 (ETL) 服务，当 Amazon S3 与其集成时，数据的管理和处理变得非常容易。

使用 AWS Glue 将数据存储在 Amazon S3 中的优势

以下是使用 AWS Glue 将数据存储在 Amazon S3 中的关键优势：

使用 AWS Glue 将数据存储在 S3 中，可以轻松访问存储在 S3 存储桶中的数据。我们可以直接对 S3 数据运行 ETL 作业，并将其转换为有意义的格式。
借助 Glue 爬虫，AWS Glue 可以自动检测存储在 S3 存储桶中的数据的模式。这使我们能够更快、更高效地查询数据。
使用 AWS Glue 的内置 Apache Spark 环境，我们可以转换存储在 Amazon S3 存储桶中的数据。

如何使用 AWS Glue 存储和处理 Amazon S3 中的数据？

请按照以下步骤使用 AWS Glue 存储和处理 S3 存储桶中的数据：

步骤 1：设置您的 Amazon S3 存储桶 - 在使用 AWS Glue 之前，必须将数据存储在 Amazon S3 存储桶中。您可以通过两种方式将数据集上传到 S3 存储桶：手动或通过文件传输等自动化流程。

步骤 2：创建 Glue 爬虫 - 将数据放入 S3 存储桶后，您可以设置一个 Glue 爬虫，它将扫描您的 S3 存储桶，提取元数据并将其保存到 Glue 数据目录中。

步骤 3：定义和运行 ETL 作业 - 创建元数据后，您现在可以在 AWS Glue 中创建一个 ETL 作业来处理存储在 S3 存储桶中的数据。

步骤 4：查询和分析数据 - 数据处理完成后，您可以使用 Amazon Athena 等 AWS 服务查询数据。您还可以将其加载到 Amazon Redshift 等数据仓库中以进行进一步分析。

使用 Amazon S3 管理 AWS Glue 作业中的分区

在使用 Amazon S3 时，管理 AWS Glue 中的分区对于优化性能和降低处理成本非常重要。

分区顾名思义，是根据特定键（例如日期、区域或产品）将数据集划分为更小、更易于管理的部分。换句话说，分区是将大型数据集组织成较小的逻辑段的一种方法。

例如：

s3://your-bucket-name/data/year=2023/month=09/day=27/

在此示例中，数据按年、月和日进行分区。

在 AWS Glue 中设置分区

请按照以下步骤在 AWS Glue 中设置分区：

步骤 1：在 Amazon S3 中分区数据 - 使用基于分区键（例如，年、月、日）的目录结构在 Amazon S3 中组织您的数据。例如，s3://my-bucket/sales_data/year=2023/month=09/day=27/。

步骤 2：配置 AWS Glue 爬虫 - 将分区数据放入 S3 后，创建并配置 AWS Glue 爬虫。爬虫将自动识别文件夹结构并将分区信息添加到 Glue 数据目录中。

步骤 3：创建或修改 Glue 作业 - 您可以创建或修改 Glue ETL 作业。在这两种情况下，都从 Glue 数据目录中引用分区数据。AWS Glue 将使用此信息仅处理必要的分区。

使用 DynamicFrames 管理分区

为了轻松管理分区数据，AWS Glue 提供了DynamicFrames。您可以使用from_catalog 函数加载分区数据，并使用filter 函数处理特定分区。让我们看下面的示例：

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

# Load partitioned data from Glue Data Catalog
dynamic_frame = glueContext.create_dynamic_frame.from_catalog(database="my_database", table_name="sales_data")

# Filter data for a specific year and month
filtered_frame = dynamic_frame.filter(f => f["year"] == "2023" and f["month"] == "09")

# Continue with the ETL process
-----------------

上述脚本将根据年份和月份过滤数据。然后，它执行 ETL 流程中定义的转换或操作。最终输出将写入您的 Amazon S3 存储桶。

打印页面