Talend - 大数据



Open Studio 与大数据的标语是“使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT。” 在本章中,让我们深入了解 Talend 作为在大数据环境中处理数据的工具的用法。

介绍

Talend Open Studio – Big Data 是一款免费且开源的工具,可让您在大数据环境中非常轻松地处理数据。Talend Open Studio 中提供了大量的大数据组件,只需简单地拖放几个 Hadoop 组件,即可创建和运行 Hadoop 作业。

此外,我们无需编写大量 MapReduce 代码;Talend Open Studio Big data 通过其中提供的组件帮助您完成此操作。它会自动为您生成 MapReduce 代码,您只需拖放组件并配置一些参数即可。

它还允许您连接到多个大数据发行版,如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

Talend 大数据组件

下面显示了 Big Data 下包含用于在 Big Data 环境中运行作业的组件的类别列表 -

Big Data

下面显示了 Talend Open Studio 中的大数据连接器和组件列表 -

  • tHDFSConnection - 用于连接到 HDFS(Hadoop 分布式文件系统)。

  • tHDFSInput - 读取给定 hdfs 路径中的数据,将其放入 Talend 架构中,然后将其传递到作业中的下一个组件。

  • tHDFSList - 检索给定 hdfs 路径中的所有文件和文件夹。

  • tHDFSPut - 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的 hdfs。

  • tHDFSGet - 将文件/文件夹从 hdfs 复制到给定路径的本地文件系统(用户定义)。

  • tHDFSDelete - 从 HDFS 删除文件

  • tHDFSExist - 检查文件是否存在于 HDFS 上。

  • tHDFSOutput - 将数据流写入 HDFS。

  • tCassandraConnection - 打开到 Cassandra 服务器的连接。

  • tCassandraRow - 在指定的数据库上运行 CQL(Cassandra 查询语言)查询。

  • tHBaseConnection - 打开到 HBase 数据库的连接。

  • tHBaseInput - 从 HBase 数据库读取数据。

  • tHiveConnection - 打开到 Hive 数据库的连接。

  • tHiveCreateTable - 在 Hive 数据库中创建一个表。

  • tHiveInput - 从 Hive 数据库读取数据。

  • tHiveLoad - 将数据写入 Hive 表或指定目录。

  • tHiveRow - 在指定的数据库上运行 HiveQL 查询。

  • tPigLoad - 将输入数据加载到输出流。

  • tPigMap - 用于在 Pig 过程中转换和路由数据。

  • tPigJoin - 根据连接键执行 2 个文件的连接操作。

  • tPigCoGroup - 对来自多个输入的数据进行分组和聚合。

  • tPigSort - 根据一个或多个定义的排序键对给定数据进行排序。

  • tPigStoreResult - 将 Pig 操作的结果存储在定义的存储空间中。

  • tPigFilterRow - 筛选指定的列,以便根据给定条件拆分数据。

  • tPigDistinct - 从关系中删除重复的元组。

  • tSqoopImport - 将数据从关系数据库(如 MySQL、Oracle DB)传输到 HDFS。

  • tSqoopExport - 将数据从 HDFS 传输到关系数据库(如 MySQL、Oracle DB)

广告