AWS Glue - 爬虫

我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终保持更新。

爬虫在 AWS Glue 中的作用是自动发现新数据，识别其模式，并相应地更新数据目录。它们通过自动发现和编目数据来确保元数据始终是最新的。

爬虫如何自动化数据发现和编目？

AWS Glue 爬虫为我们提供了一种自动化数据发现和编目的有效方法。通过扫描数据源、识别模式、生成元数据并将其组织到 Glue 数据目录中，它们消除了手动数据管理的需要。这种自动化帮助企业确保其数据始终可用并保持最新状态，以便进行分析。

让我们看看爬虫如何自动化数据发现和编目 -

创建和配置 AWS 爬虫后，它们首先识别数据格式。它们足够智能，可以识别各种数据格式，例如 JSON、CSV、Avro、Parquet 和 ORC。爬虫检查定义的数据源中文件的格式和结构，以分类数据类型、模式和表。

识别数据格式后，爬虫会为每个表和数据集生成元数据。此元数据包括有关模式的信息，例如列名、数据类型以及表之间的关系。

生成元数据后，爬虫会通过将模式信息存储在 Glue 数据目录中来自动编目数据。数据目录将元数据组织成数据库和表，其他 AWS 服务（如 Athena、Redshift 和 SageMaker）可以访问这些数据库和表以进行分析和机器学习。

我们还可以安排爬虫定期自动运行。这确保了新数据或更新的数据会不断被发现和编目，而无需人工干预。它允许企业保持其数据目录最新并随时准备进行分析。

AWS 爬虫自动化数据发现和编目。爬虫生成的元数据对于设置 AWS Glue 作业以转换数据非常重要。编目后，可以使用 Glue 的 ETL 功能对数据进行清理、丰富和转换。

打印页面