Google BigQuery:深度理解指南
什么是Google BigQuery?
它是一个完全托管的企业级数据仓库,帮助您使用内置功能(如人工智能、地理空间分析和商业智能)来管理和分析数据。
BigQuery的无服务器架构允许您使用SQL查询来回答您公司最重要的难题,而无需进行任何基础设施管理。
BigQuery的可扩展分布式查询引擎允许您在几秒钟内处理TB级数据,并在几分钟内处理PB级数据。
BigQuery通过将处理数据的计算引擎与您的访问控制选项分离,增强了可扩展性。
您可以在BigQuery中存储和分析数据,也可以使用BigQuery来分析数据所在位置的数据。
联合查询允许您读取外部数据源中的数据,而流式加载支持持续的数据更新。
强大的资源(如BigQuery ML和BI引擎)允许您分析和可视化该数据。
BigQuery接口包括Google Cloud控制台界面和BigQuery命令行工具。
工程师和数据分析师可以使用常见编程语言(包括Python、Java、JavaScript和Go)的客户端库。BigQuery的REST API和RPC API可以修改和管理数据。
ODBC和JDBC驱动程序提供了与现有应用程序(包括第三方工具和实用程序)的连接。
作为数据工程师、数据架构师、数据仓库管理员或数据科学家,BigQuery ML文档可以帮助您查找、执行和管理数据工具,从而为关键的业务决策提供信息。
Google BigQuery的优势
就分析而言,Google BigQuery是一个极好的选择。它提供了一种托管式方法来进行数据分析,并简化了用户在云中管理和运行大型分析的方式。
分布式架构 - Google在计算资源之间动态分配BigQuery使用的计算,这意味着您无需管理计算集群。竞争性产品通常需要对特定计算集群进行自定义配置(和定价),并且这可能会随着时间的推移而发生变化,这可能是一个挑战。
灵活的定价选项 - 由于Google动态分配资源,因此成本也是动态的。Google提供了一种按需付费的选项,您只需为导入BigQuery的数据付费,然后按查询付费。作为此方法的一部分,他们提供了一个报告工具,以提供对使用情况和成本趋势的额外可见性。对于大型客户,固定定价也是一种选择。
完全托管 - 由于BigQuery是完全托管的服务,因此后端配置和调整由Google负责。这比需要您选择和管理大量集群的竞争方案简单得多。
高可用性 - BigQuery在区域之间自动复制数据以实现高可用性。它还会自动缩放和调整以提供最佳性能,并最大限度地减少任何硬件故障的影响。这与通常仅关注一个区域的竞争方案不同。
如何使用Google BigQuery?
要使用BigQuery,您需要一个Google Cloud Platform帐户、一个电子邮件地址和一个唯一的秘密密钥。我到目前为止已经设置了这些,因此如果您还没有GCP帐户,请注册。
然后,单击“开始”按钮,然后按照屏幕上的向导操作。
为了下载大型数据转储,Google提供了一个网站,您可以从中下载一个特殊的电子表格。下载此文件并将其放在您可以轻松找到的地方。
然后,打开Google BigQuery控制台。
创建数据集
您需要做的第一件事是创建一个数据集,然后连接到它。
在云端创建数据集是可行的:启动一个BigQuery会话,进入一个数据仓库,并创建一个新的数据集。当您在云端时,您可以连接到新创建的数据集,并等待BigQuery服务器启动。这意味着您的数据存储在本地机器上。
获取大型数据转储
连接到BigQuery服务器后,现在是请求大型数据转储的时候了。
我们将关注两个您会发现有用的方面:首先,您可以修改计划。这意味着您可以将数据库转储计划到特定日期和时间下载。其次,您可以通过选择“删除BigQuery文档”来删除数据集。
我们来做吧?
点击顶部的“获取数据”选项卡,然后按“获取数据”按钮。
第一个选项(获取数据)允许您下载整个BigQuery数据集(更多信息请参见下文)。
第二个选项(获取数据包)包含一个包含完整数据集的压缩文件。选择它并按确定。
压缩文件将立即下载到您的机器上。
结论
BigQuery在下载、共享和处理大型数据集方面非常简单且灵活。BigQuery是一个完全托管的企业级数据仓库,它帮助您使用内置功能(如人工智能、地理空间分析和商业智能)来管理和分析数据。Google BigQuery是传统数据仓库硬件解决方案的替代方案。它用作数据仓库,因此充当组织中所有分析数据的中央存储库。此外,BigQuery将数据表组织成称为数据集的单元。Google BigQuery优于PostgreSQL的主要原因是其性能。Google BigQuery是100%可扩展的,允许根据需要请求必要的资源以立即运行您的查询,并且它针对查询性能进行了高度优化。