AWS Glue - 爬虫



我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终保持更新。

爬虫在 AWS Glue 中的作用是自动发现新数据,识别其模式,并相应地更新数据目录。它们通过自动发现和编目数据来确保元数据始终是最新的。

爬虫如何自动化数据发现和编目?

AWS Glue 爬虫为我们提供了一种自动化数据发现和编目的有效方法。通过扫描数据源、识别模式、生成元数据并将其组织到 Glue 数据目录中,它们消除了手动数据管理的需要。这种自动化帮助企业确保其数据始终可用并保持最新状态,以便进行分析。

让我们看看爬虫如何自动化数据发现和编目 -

1. 数据格式识别

创建和配置 AWS 爬虫后,它们首先识别数据格式。它们足够智能,可以识别各种数据格式,例如 JSON、CSV、Avro、Parquet 和 ORC。爬虫检查定义的数据源中文件的格式和结构,以分类数据类型、模式和表。

2. 生成元数据

识别数据格式后,爬虫会为每个表和数据集生成元数据。此元数据包括有关模式的信息,例如列名、数据类型以及表之间的关系。

3. 编目数据

生成元数据后,爬虫会通过将模式信息存储在 Glue 数据目录中来自动编目数据。数据目录将元数据组织成数据库和表,其他 AWS 服务(如 Athena、Redshift 和 SageMaker)可以访问这些数据库和表以进行分析和机器学习。

4. 自动化调度

我们还可以安排爬虫定期自动运行。这确保了新数据或更新的数据会不断被发现和编目,而无需人工干预。它允许企业保持其数据目录最新并随时准备进行分析。

5. 数据转换

AWS 爬虫自动化数据发现和编目。爬虫生成的元数据对于设置 AWS Glue 作业以转换数据非常重要。编目后,可以使用 Glue 的 ETL 功能对数据进行清理、丰富和转换。

广告