- AWS Glue 教程
- AWS Glue - 首页
- AWS Glue - 简介
- AWS Glue - 入门指南
- AWS Glue - 数据目录
- AWS Glue - Amazon S3 集成
- AWS Glue - 爬虫
- AWS Glue - 性能优化
- AWS Glue - 成本优化
- AWS Glue 资源
- AWS Glue - 快速指南
- AWS Glue - 资源
- AWS Glue - 讨论
AWS Glue - 数据目录
什么是数据目录?
AWS Glue 数据目录是一个存储数据元数据信息的中央存储库。简单来说,数据目录就像一个数据字典,它保存了数据的结构、数据的位置以及如何使用查询访问数据等详细信息。这些元数据信息对于管理和组织大量数据非常重要。
您可以将数据存储在 Amazon S3、Redshift 或 AWS 中的任何其他位置。AWS Glue 数据目录的主要作用是集中管理数据并使其可供分析。
数据目录的关键特性
下面列出了一些 AWS Glue 数据目录的关键特性:
- 自动数据检测 - AWS Glue 爬虫扫描您的数据源,识别模式,并自动编目元数据。这些数据存储在 AWS Glue 数据目录中。
- 集中式元数据管理 - 数据目录的关键特性之一是它将所有元数据集中在一个地方。因此,用户无需手动定义数据。它还有助于更轻松地管理大型数据环境。
- 与 AWS 服务集成 - AWS Glue 数据目录可以轻松地与 AWS 服务(如 Amazon Athena、Redshift 和 SageMaker)集成。这种集成允许用户运行查询或构建机器学习模型,而无需手动处理数据。
如何使用 AWS Glue 数据目录?
使用 AWS Glue 数据目录非常简单。首先,您需要创建一个数据库,用于存储数据集的元数据。我们在上一节中讨论了创建数据库的方法。
拥有数据库后,您需要创建一个 AWS Glue 爬虫,它将自动扫描您的数据源。爬虫识别数据结构并使用元数据(如表名、列和数据类型)更新数据目录。然后,可以使用 Amazon Athena 等工具查询这些元数据。
使用 Glue 数据目录管理元数据
您拥有可供查询的元数据,但对于处理大量数据的组织来说,有效地管理这些元数据非常重要。在学习管理元数据的方法之前,了解这些元数据至关重要。
了解元数据
元数据是关于数据的数据。它提供以下重要信息:
- 模式 - 它表示数据集的结构。它包括表、列和数据类型。
- 位置 - 顾名思义,它是存储数据 AWS 的位置。可以是 Amazon S3 存储桶或 Amazon Redshift 等数据库。
- 描述 - 它提供有关数据的其他信息。可能包括其用途以及它起源的来源。
管理元数据的方法
以下是一些您可以用来管理元数据的方法:
1. 手动编辑元数据
虽然 AWS 爬虫的自动数据检测已经足够,但您也可以手动编辑数据。要手动编辑元数据,首先在数据目录中找到您的数据库和表。现在,您可以单击要编辑的特定表。您可以编辑其属性、列和数据类型。
2. 使用标签编辑元数据
标签有助于更有效地组织和管理元数据。您可以使用键值对标记数据库和表,以便轻松地对其进行分类。
标签还可以增强元数据的可搜索性,这使得在大型集合中更容易找到特定的数据集。
广告