AWS Glue - 成本优化



AWS Glue 定价结构

AWS Glue 的定价基于按需付费模型,这意味着您只需为使用的资源付费。AWS Glue 费用分为多个组成部分。费用根据您使用服务的方式而有所不同。

以下是 AWS Glue 定价的一些关键因素

数据处理单元 (DPU)

AWS Glue 中的数据处理单元 (DPU) 是 CPU、内存和网络资源的组合。您根据在 ETL 作业执行期间使用的 DPU 数量付费。

运行 Glue ETL 作业的成本按秒计算,最短计费时间为 1 分钟。

AWS Glue 爬虫

爬虫会自动扫描您的数据以提取元数据并编目 Glue 数据。Glue 爬虫按 DPU 小时计费,最短计费时间为 10 分钟。

AWS Glue 数据目录

Glue 数据目录根据存储在目录中的对象数量(例如数据库、表和分区)计费。AWS 为 Glue 数据目录提供每月 100 万个存储对象和 100 万次请求的免费套餐。

开发端点

开发端点允许您交互式创建和测试 ETL 脚本。其定价基于分配给开发端点的 DPU。

降低 AWS Glue 成本的技巧

AWS Glue 为用户提供了强大的数据管理和处理工具,但如果管理不当,成本可能会增加。

在本节中,我们重点介绍了一些降低 AWS Glue 成本的策略:

优化数据处理单元 (DPU)

配置 AWS Glue 作业时,请尝试仅分配所需的 DPU 数量。这是因为使用超过必要的 DPU 会增加您的成本。

您应该使用 AWS CloudWatch 监控 Glue 作业的资源使用情况。为了管理成本,您可以根据实际内存和 CPU 使用情况调整 DPU。

最小化爬虫运行次数

与其持续运行爬虫,不如将其安排在仅需要发现或编目新数据时运行。

与其在整个数据集上运行爬虫,不如将其限制在特定的分区或文件夹中。这将减少处理时间和成本。

明智地使用 Glue 数据目录

您可以通过将存储的对象数量保持在 100 万以下来仅使用 Glue 数据目录的免费套餐。

您应定期检查 Glue 数据目录并删除过时或未使用的表和分区,以避免不必要的费用。

将免费套餐用于开发端点

如前所述,开发端点按小时计费。因此,请尝试在不使用时终止它们。

优化 ETL 作业

您可以使用下推谓词在源处过滤数据,以减少 Glue 作业处理的数据量。

您应该使用数据分区策略来优化查询性能。

监控和分析成本

您应该使用AWS 成本浏览器跟踪您的 Glue 使用情况。您还可以设置账单警报,以便在 Glue 成本超过某个限制时通知您。

广告