- BigQuery 教程
- BigQuery - 首页
- BigQuery - 概览
- BigQuery - 初始设置
- BigQuery 与本地 SQL 引擎
- BigQuery - Google Cloud Console
- BigQuery - Google Cloud 层级结构
- 什么是 Dremel?
- 什么是 BigQuery Studio?
- BigQuery - 数据集
- BigQuery - 表格
- BigQuery - 视图
- BigQuery - 创建表格
- BigQuery - 基本 Schema 设计
- BigQuery - 修改表格
- BigQuery - 复制表格
- 删除和恢复表格
- BigQuery - 填充表格
- 标准 SQL 与传统 SQL
- BigQuery - 编写第一个查询
- BigQuery - CRUD 操作
- 分区和聚类
- BigQuery - 数据类型
- BigQuery - 复杂数据类型
- BigQuery - STRUCT 数据类型
- BigQuery - ARRAY 数据类型
- BigQuery - JSON 数据类型
- BigQuery - 表格元数据
- BigQuery - 用户自定义函数
- 连接外部数据源
- 集成计划任务查询
- 集成 BigQuery API
- BigQuery - 集成 Airflow
- 集成连接表格
- 集成数据传输
- BigQuery - 物化视图
- BigQuery - 角色和权限
- BigQuery - 查询优化
- BigQuery - BI 引擎
- 监控使用情况和性能
- BigQuery - 数据仓库
- 挑战和最佳实践
- BigQuery 资源
- BigQuery - 快速指南
- BigQuery - 资源
- BigQuery - 讨论
BigQuery - 集成 Airflow
运行一个**Python** 脚本加载 BigQuery 表格对于单个作业可能很有帮助。但是,当开发人员需要创建多个顺序任务时,孤立的解决方案并非最佳选择。因此,有必要跳出简单执行的思维。需要进行编排。
BigQuery 可以与多个流行的编排解决方案集成,例如Airflow 和DBT。但是,本教程将重点介绍 Airflow。
有向无环图 (DAG)
Apache Airflow 允许开发人员创建称为有向无环图 (DAG) 的执行块。每个 DAG 由许多任务组成。
每个任务都需要一个操作符。有两个重要的与 BigQuery 兼容的操作符 -
- BigQueryCheck 操作符
- BigQueryExecuteQuery 操作符
BigQueryCheck 操作符
BigQueryCheckOperator 允许开发人员进行上游检查,以确定数据是否已更新当天。
如果表格的 Schema 中不包含上传时间戳,则可以查询元数据(如前所述)。
开发人员可以通过运行此查询的版本来确定表格上次更新的时间 -
BigQueryExecuteQuery 操作符
要执行依赖于上游数据的**SQL** 脚本,SQL 开发人员可以使用BigQueryExecuteQuery 操作符创建加载作业。
关于 Airflow 的更深入解释超出了本教程的范围,但 GCP 为希望了解更多信息的读者提供了丰富的文档。
广告