- BigQuery 教程
- BigQuery - 首页
- BigQuery - 概述
- BigQuery - 初始设置
- BigQuery 与本地 SQL 引擎的比较
- BigQuery - Google Cloud Console
- BigQuery - Google Cloud 层次结构
- 什么是 Dremel?
- 什么是 BigQuery Studio?
- BigQuery - 数据集
- BigQuery - 表
- BigQuery - 视图
- BigQuery - 创建表
- BigQuery - 基本模式设计
- BigQuery - 修改表
- BigQuery - 复制表
- 删除和恢复表
- BigQuery - 填充表
- 标准 SQL 与传统 SQL
- BigQuery - 编写第一个查询
- BigQuery - CRUD 操作
- 分区和集群
- BigQuery - 数据类型
- BigQuery - 复杂数据类型
- BigQuery - STRUCT 数据类型
- BigQuery - ARRAY 数据类型
- BigQuery - JSON 数据类型
- BigQuery - 表元数据
- BigQuery - 用户自定义函数
- 连接到外部数据源
- 集成计划查询
- 集成 BigQuery API
- BigQuery - 集成 Airflow
- 集成连接的表格
- 集成数据传输
- BigQuery - 物化视图
- BigQuery - 角色和权限
- BigQuery - 查询优化
- BigQuery - BI 引擎
- 监控使用情况和性能
- BigQuery - 数据仓库
- 挑战和最佳实践
- BigQuery 资源
- BigQuery - 快速指南
- BigQuery - 资源
- BigQuery - 讨论
BigQuery - 数据集
BigQuery 中的数据集是什么?
数据集是存在于项目中的实体。数据集充当 BigQuery 表以及视图、例程和机器学习模型的容器。
表不能独立于数据集存在,因此在 BigQuery Studio 中创建新的数据源时,必须创建数据集。
除了人机可读名称等属性外,开发人员还必须在授权创建数据集时指定一个**位置**。这些位置与全球 Google 数据中心的物理位置相对应。
指定位置时,需要指定单个区域或多区域。例如,您不必选择芝加哥的数据中心,而是指定“us-central-1”。
将数据集建立为多区域实体可以提供额外优势,即当特定区域的资源无法跟上当前需求时,BigQuery 会更改位置。当前的多区域位于美洲(美国)或欧盟(欧洲)。
在 BigQuery 中创建数据集的步骤
要创建数据集,请按照以下步骤操作。首先,导航到您的项目名称并单击三个点,这将触发带有**“创建数据集”**的弹出窗口 -
单击“创建数据集”后,系统将提示您输入 -
- dataset_id
- 位置类型(区域与多区域)。
- 默认表过期时间(表过期的天数)。
最终结果是一个数据集,它充当未来表、视图和物化视图的容器。
“共享”选项允许开发人员管理对数据集的访问控制,以限制未经授权的用户。
BigQuery:公共数据集
如果您是 BigQuery 的新手,也可能是 SQL 的新手,那么您可能没有生成要存储和操作的数据。这是使用 BigQuery Studio 作为 SQL 沙箱的优势之一。除了无服务器基础设施外,BigQuery 还提供数 TB 的样本数据,供学生和专业人士学习和改进他们的 SQL 技能。
- 通过 Google Cloud 公共数据集计划发布,BigQuery 公共数据集存储在其自身可公开访问的项目中:**bigquery-public-data**。
- 根据每 TB 付费定价模式,开发人员每月最多可以免费查询 1 TB 的数据。
- 与许多库存数据集不同,表中包含的数据是真实的,也就是“杂乱的”,有时需要进行大量的转换才能产生可操作的见解。
BigQuery 还提供了一些独立于其 BigQuery 公共数据集的示例表,这些表可以在 **bigquery-public-data:samples** 表数据集中找到 -
- gsod
- github_nested
- github_timeline
- natality
- shakespeare
- trigrams
- wikipedia
访问 BigQuery 公共数据集可能最重要的优势在于,数据是从 BBC、Hacker News 和约翰·霍普金斯大学等真实数据源中提取的。
广告