AWS Glue - 数据目录



什么是数据目录?

AWS Glue 数据目录是一个存储数据元数据信息的中央存储库。简单来说,数据目录就像一个数据字典,它保存了数据的结构、数据的位置以及如何使用查询访问数据等详细信息。这些元数据信息对于管理和组织大量数据非常重要。

您可以将数据存储在 Amazon S3、Redshift 或 AWS 中的任何其他位置。AWS Glue 数据目录的主要作用是集中管理数据并使其可供分析。

数据目录的关键特性

下面列出了一些 AWS Glue 数据目录的关键特性:

  • 自动数据检测 - AWS Glue 爬虫扫描您的数据源,识别模式,并自动编目元数据。这些数据存储在 AWS Glue 数据目录中。
  • 集中式元数据管理 - 数据目录的关键特性之一是它将所有元数据集中在一个地方。因此,用户无需手动定义数据。它还有助于更轻松地管理大型数据环境。
  • 与 AWS 服务集成 - AWS Glue 数据目录可以轻松地与 AWS 服务(如 Amazon Athena、Redshift 和 SageMaker)集成。这种集成允许用户运行查询或构建机器学习模型,而无需手动处理数据。

如何使用 AWS Glue 数据目录?

使用 AWS Glue 数据目录非常简单。首先,您需要创建一个数据库,用于存储数据集的元数据。我们在上一节中讨论了创建数据库的方法。

拥有数据库后,您需要创建一个 AWS Glue 爬虫,它将自动扫描您的数据源。爬虫识别数据结构并使用元数据(如表名、列和数据类型)更新数据目录。然后,可以使用 Amazon Athena 等工具查询这些元数据。

使用 Glue 数据目录管理元数据

您拥有可供查询的元数据,但对于处理大量数据的组织来说,有效地管理这些元数据非常重要。在学习管理元数据的方法之前,了解这些元数据至关重要。

了解元数据

元数据是关于数据的数据。它提供以下重要信息:

  • 模式 - 它表示数据集的结构。它包括表、列和数据类型。
  • 位置 - 顾名思义,它是存储数据 AWS 的位置。可以是 Amazon S3 存储桶或 Amazon Redshift 等数据库。
  • 描述 - 它提供有关数据的其他信息。可能包括其用途以及它起源的来源。

管理元数据的方法

以下是一些您可以用来管理元数据的方法:

1. 手动编辑元数据

虽然 AWS 爬虫的自动数据检测已经足够,但您也可以手动编辑数据。要手动编辑元数据,首先在数据目录中找到您的数据库和表。现在,您可以单击要编辑的特定表。您可以编辑其属性、列和数据类型。

2. 使用标签编辑元数据

标签有助于更有效地组织和管理元数据。您可以使用键值对标记数据库和表,以便轻松地对其进行分类。

标签还可以增强元数据的可搜索性,这使得在大型集合中更容易找到特定的数据集。

广告