Apache Presto - 概述



数据分析是对原始数据进行分析以收集相关信息以进行更好决策的过程。它主要用于许多组织中做出业务决策。大型数据分析涉及大量数据,此过程相当复杂,因此公司使用不同的策略。

例如,Facebook 是全球领先的数据驱动型和最大的数据仓库公司之一。Facebook 的仓库数据存储在 Hadoop 中以进行大规模计算。后来,当仓库数据增长到 PB 级时,他们决定开发一个新的低延迟系统。在 2012 年,Facebook 团队成员设计了“Presto” 用于交互式查询分析,即使在 PB 级数据的情况下也能快速运行。

什么是 Apache Presto?

Apache Presto 是一个分布式并行查询执行引擎,针对低延迟和交互式查询分析进行了优化。Presto 可以轻松运行查询,并且可以无停机时间地扩展,即使是从 GB 到 PB。

单个 Presto 查询可以处理来自多个来源的数据,例如 HDFS、MySQL、Cassandra、Hive 和许多其他数据源。Presto 使用 Java 构建,易于与其他数据基础设施组件集成。Presto 功能强大,Airbnb、Dropbox、Groupon、Netflix 等领先公司都在采用它。

Presto - 特性

Presto 包含以下特性:

  • 简单且可扩展的架构。
  • 可插拔连接器 - Presto 支持可插拔连接器,为查询提供元数据和数据。
  • 流水线执行 - 避免不必要的 I/O 延迟开销。
  • 用户定义函数 - 分析师可以创建自定义用户定义函数以轻松迁移。
  • 矢量化列式处理。

Presto - 优势

以下是 Apache Presto 提供的优势列表:

  • 专业的 SQL 操作
  • 易于安装和调试
  • 简单的存储抽象
  • 快速扩展 PB 级数据,同时保持低延迟

Presto - 应用

Presto 支持当今大多数最佳的工业应用。让我们来看一些值得注意的应用。

  • Facebook - Facebook 构建 Presto 用于数据分析需求。Presto 可以轻松扩展大型数据速度。

  • Teradata - Teradata 提供大数据分析和数据仓库的端到端解决方案。Teradata 对 Presto 的贡献使更多公司更容易满足所有分析需求。

  • Airbnb - Presto 是 Airbnb 数据基础架构不可或缺的一部分。数百名员工每天都在使用这项技术运行查询。

为什么选择 Presto?

Presto 支持标准 ANSI SQL,这使得数据分析师和开发人员更容易使用。虽然它使用 Java 构建,但它避免了 Java 代码中与内存分配和垃圾回收相关的典型问题。Presto 具有对 Hadoop 友好的连接器架构。它允许轻松插入文件系统。

Presto 可以在多个 Hadoop 发行版上运行。此外,Presto 可以从 Hadoop 平台查询 Cassandra、关系数据库或其他数据存储。这种跨平台分析能力允许 Presto 用户从 GB 到 PB 的数据中提取最大的业务价值。

广告