BigQuery Tutorial

BigQuery 教程

云计算知识已成为数据科学工作领域的一项必备技能。从“数据分析师”到“数据工程师”的每个角色都期望具备云计算的基本知识。除了微软和亚马逊网络服务(AWS)之外,Google Cloud Platform (GCP) 是最受欢迎的云平台之一。掌握 GCP 工具,尤其是SQL引擎(如 BigQuery),对于开始或发展数据导向的职业至关重要。

MySQL或 Postgre 等本地 SQL 工具不同,Google BigQuery 利用云计算的强大功能,允许用户与海量数据进行交互并无缝扩展。BigQuery 的 SQL 方言有一些与传统方言(如PostgreSQL)不同的特性,但是,了解如何编写高效的查询以及了解“幕后”发生的事情,将使 BigQuery 用户能够快速掌握技能。

关于 BigQuery 教程

本教程的目的是让读者通过使用 BigQuery Studio(BigQuery 的 SQL 引擎)和其他外部 Google Cloud 集成来了解 BigQuery 的基本概念。本教程涵盖了从初始设置到创建数据集和表格,再到创建和运行复杂 SQL 脚本的所有内容。

除了动手实践 SQL 概念之外,学习者将更好地理解 BigQuery “幕后”的架构和设计,以及这种设计如何使用户能够创建、查询和操作大型数据集。

本教程还将讨论围绕 BigQuery 作为可行的数据仓库解决方案的业务用例和相关性。

谁应该使用 BigQuery 教程?

BigQuery 教程旨在面向广泛的学习者。这些受众包括数据分析师、数据科学家、数据工程师、软件工程师以及在其工作中使用数据和 SQL 引擎的业务领导者。

希望深入了解云计算和 SQL 结合的开发者也可以从本教程中受益。虽然本教程面向初学者,但它也可以增强中级用户和在职专业人士的理解。

平均读者经验水平会有所不同,但通常而言,从本教程中获益最多的将是学生、实习生或初级开发者。

学习 BigQuery 的先决条件

在本教程中,我们假设您具备 SQL、云计算和数据分析的基础知识。

虽然本教程中重点介绍了 SQL,但以下章节旨在涵盖 BigQuery 作为BI工具,并且没有专门教授 SQL。因此,SQL 的基本知识是本教程以及学习 BigQuery 的先决条件。

但是,即使具备 SQL 知识,也需要注意 BigQuery 有自己的 SQL 方言,并且函数和语法可能有所不同。由于 BigQuery 是 Google Cloud Platform 上的一个应用程序,因此强烈建议任何学习 BigQuery 的人都熟悉或有云计算概念的经验。

BigQuery 常见问题解答

在本节中,我们收集了一组关于 BigQuery 的常见问题及其答案 -

1. 什么是 Google BigQuery?

Google BigQuery 是 Google Cloud Platform 的无服务器 SQL 引擎和数据仓库解决方案。它主要通过在Google Cloud Console中使用 BigQuery Studio 来访问。

通过各种方法,BigQuery 允许用户使用无服务器云基础设施即时查询、创建和操作数据集。因此,学生、专业人士和组织能够以几乎无限的规模存储和分析数据。

2. 为什么应该使用 BigQuery?

SQL 和云计算是初级数据科学家、数据工程师、数据分析师和软件开发人员最抢手和最具市场价值的技能之一。

Google Cloud 是全球最大、最知名的云供应商之一。BigQuery SQL 的知识可以帮助初级开发人员学习或完善技能,以找到工作并帮助构建企业级数据基础设施。

业务领导者应认真考虑将 BigQuery 作为构建和改进现有数据基础设施的可行选择;对于那些希望从本地(on-prem)设置迁移到云基础设施的公司来说,尤其如此。

3. BigQuery 的主要功能是什么?

BigQuery 的主要功能是其 SQL 环境,BigQuery Studio。BigQuery 的功能还包括与现有产品(如 Google Sheets、Google Cloud Storage、gcloud 命令行界面 (CLI) 工具和BigQuery API)的集成。

BigQuery 还包括用于通过 BigQuery 数据传输服务自动从上游 Google Cloud 源传输数据的服务。BigQuery 允许创建和促进计划任务查询、创建视图以及将视图转换为物化视图。

4. 初学者学习 BigQuery 的最佳方法是什么?

初学者学习 BigQuery 的最佳方法是通过实践经验,就像本教程所说明和鼓励的那样。对于 BigQuery 初学者,Google Cloud Platform 提供对公共数据集的访问,并为考虑使用该平台的用户提供 3 个月的初始试用期。

Google Cloud Platform 还为有兴趣学习 BigQuery 的初学者创建了学习资源。这些学习资源包括 Google Qwiklabs、动手学习练习以及关于 BigQuery 流程和语法的广泛文档。

5. BigQuery 如何存储数据?

BigQuery 是一个SQL 数据库,以结构化的方式存储数据(与非结构化数据相对)。BigQuery 是一个列式数据存储,这意味着数据存储在列中,用户可以根据需要访问、操作和添加/删除这些列。

BigQuery 的数据存储还允许开发人员将数据存储在分区中,分区是根据日期等字段划分的“数据段”。

6. BigQuery 如何处理安全性?

BigQuery 与现有的 Google Cloud Platform 功能集成以保护数据。随着数据隐私在数据科学领域变得越来越重要,BigQuery 为用户提供了多种保护敏感数据的方法。

BigQuery 允许用户设置策略标签以指示特定字段(列)是否包含个人身份信息 (PII)。BigQuery 还允许项目所有者分配权限和角色,从而限制对潜在敏感数据的访问。

7. 在使用 BigQuery 时,我是否需要了解 Google Cloud Storage (GCS)?

在使用存储在 BigQuery 中的数据时,了解 Google Cloud Storage (GCS) 不是先决条件。但是,了解云存储的原理以及外部存储的具体细节和限制对于理解 BigQuery 的“内部工作原理”很有帮助。

此外,了解 Google Cloud Storage 可以使用户能够更好地、更无缝地将存储在 Cloud Storage 中的数据与 BigQuery 集成。了解 Cloud Storage 可以帮助开发人员更快地了解如何将 Google Sheets 和其他外部集成与 BigQuery 连接。

广告