Sqoop - 简介

传统的应用程序管理系统，也就是使用 RDBMS 的应用程序与关系数据库之间的交互，是生成大数据的一个来源。由 RDBMS 生成的此类大数据存储在关系数据库结构中的关系数据库服务器 中。

当 Hadoop 生态系统中的大数据存储和分析器（例如 MapReduce、Hive、HBase、Cassandra、Pig 等）出现时，它们需要一个工具来与关系数据库服务器交互，以导入和导出驻留在其中的大数据。在这里，Sqoop 在 Hadoop 生态系统中占有一席之地，提供关系数据库服务器与 Hadoop 的 HDFS 之间的可行交互。

Sqoop − “SQL 到 Hadoop 以及 Hadoop 到 SQL”

Sqoop 是一款设计用来在 Hadoop 和关系数据库服务器之间传输数据。它用于将数据从关系数据库中（例如 MySQL、Oracle）导入 Hadoop HDFS 中，并从 Hadoop 文件系统导出到关系数据库中。它由 Apache 软件基金会提供。

Sqoop 如何工作？

下图描述了 Sqoop 的工作流程。

Sqoop 导入

导入工具将各个表格从 RDBMS 导入到 HDFS 中。表格中的每一行都作为 HDFS 中的一条记录进行处理。所有记录都作为文本文件中的文本数据或作为 Avro 和 Sequence 文件中的二进制数据进行存储。

Sqoop 导出

导出工具将一组文件从 HDFS 导出回 RDBMS 中。作为 Sqoop 输入的文件包含被称为表格中行的记录。对这些记录进行读入并解析成一组记录，并使用用户指定的定界符分隔。

打印页面

上一个

下一个