BigQuery - 数据集



BigQuery 中的数据集是什么?

数据集是存在于项目中的实体。数据集充当 BigQuery 表以及视图、例程和机器学习模型的容器。

表不能独立于数据集存在,因此在 BigQuery Studio 中创建新的数据源时,必须创建数据集。

除了人机可读名称等属性外,开发人员还必须在授权创建数据集时指定一个**位置**。这些位置与全球 Google 数据中心的物理位置相对应。

指定位置时,需要指定单个区域或多区域。例如,您不必选择芝加哥的数据中心,而是指定“us-central-1”。

将数据集建立为多区域实体可以提供额外优势,即当特定区域的资源无法跟上当前需求时,BigQuery 会更改位置。当前的多区域位于美洲(美国)或欧盟(欧洲)。

在 BigQuery 中创建数据集的步骤

要创建数据集,请按照以下步骤操作。首先,导航到您的项目名称并单击三个点,这将触发带有**“创建数据集”**的弹出窗口 -

Steps to Create a Dataset in BigQuery

单击“创建数据集”后,系统将提示您输入 -

  • dataset_id
  • 位置类型(区域与多区域)。
  • 默认表过期时间(表过期的天数)。
Create Dataset

最终结果是一个数据集,它充当未来表、视图和物化视图的容器。

Sample Dataset

“共享”选项允许开发人员管理对数据集的访问控制,以限制未经授权的用户。

Sample Dataset

BigQuery:公共数据集

如果您是 BigQuery 的新手,也可能是 SQL 的新手,那么您可能没有生成要存储和操作的数据。这是使用 BigQuery Studio 作为 SQL 沙箱的优势之一。除了无服务器基础设施外,BigQuery 还提供数 TB 的样本数据,供学生和专业人士学习和改进他们的 SQL 技能。

  • 通过 Google Cloud 公共数据集计划发布,BigQuery 公共数据集存储在其自身可公开访问的项目中:**bigquery-public-data**。
  • 根据每 TB 付费定价模式,开发人员每月最多可以免费查询 1 TB 的数据。
  • 与许多库存数据集不同,表中包含的数据是真实的,也就是“杂乱的”,有时需要进行大量的转换才能产生可操作的见解。

BigQuery 还提供了一些独立于其 BigQuery 公共数据集的示例表,这些表可以在 **bigquery-public-data:samples** 表数据集中找到 -

  • gsod
  • github_nested
  • github_timeline
  • natality
  • shakespeare
  • trigrams
  • wikipedia

访问 BigQuery 公共数据集可能最重要的优势在于,数据是从 BBC、Hacker News 和约翰·霍普金斯大学等真实数据源中提取的。

广告