集成BigQuery API



BigQuery API 允许开发者利用 BigQuery 的处理能力和 Google SQL 数据操作函数来执行重复性任务。

BigQuery API 是一个 REST API,支持以下语言:

由于 Python 是数据科学和数据分析中最流行的语言之一,本章将探讨 Python 环境下的 BigQuery API。

BigQuery API 部署选项

就像开发者不能直接从 BigQuery Studio 部署 SQL 一样,对于生产工作流程,访问 BigQuery API 的代码必须通过相关的 GCP 产品进行部署。

部署选项包括:

  • Cloud Run
  • Cloud Functions
  • 虚拟机
  • Cloud Composer (Airflow)

BigQuery API 需要身份验证

使用 BigQuery API 需要身份验证:

  • 如果在本地运行脚本,可以下载与运行 BigQuery 的服务帐户关联的凭据文件,然后将其设置为环境变量。
  • 如果在连接到云的环境(例如 Vertex AI 笔记本)中运行 BigQuery,则身份验证会自动完成。

为了避免下载文件,GCP 还支持大多数应用程序的OAuth 2.0 身份验证流程。

身份验证后,典型的 BigQuery API 用例包括:

  • 运行包含给定表的 CRUD 操作的 SQL 脚本。
  • 检索项目或数据集元数据以创建监控框架。
  • 运行 SQL 查询以使用来自其他来源的数据合成或丰富 BigQuery 数据。

“.query()” 方法

毫无疑问,最流行的 BigQuery API 方法之一是“.query() 方法”。当与 Pandas 的“.to_dataframe()”结合使用时,它为查询和以可读形式显示数据提供了一个强大的选项。

The query() Method/

此查询应获取以下输出

The query() Method /

BigQuery API 不是黑盒。除了日志记录(使用 Google Cloud Logging 客户端)之外,开发者还可以在 UI 中看到按个人用户和项目级别细分的实时作业信息。对于任何失败的作业进行故障排除,这应该是您的第一步。

广告