Talend - 大数据

Open Studio 与大数据的标语是“使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT。” 在本章中，让我们深入了解 Talend 作为在大数据环境中处理数据的工具的用法。

介绍

Talend Open Studio – Big Data 是一款免费且开源的工具，可让您在大数据环境中非常轻松地处理数据。Talend Open Studio 中提供了大量的大数据组件，只需简单地拖放几个 Hadoop 组件，即可创建和运行 Hadoop 作业。

此外，我们无需编写大量 MapReduce 代码；Talend Open Studio Big data 通过其中提供的组件帮助您完成此操作。它会自动为您生成 MapReduce 代码，您只需拖放组件并配置一些参数即可。

它还允许您连接到多个大数据发行版，如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

Talend 大数据组件

下面显示了 Big Data 下包含用于在 Big Data 环境中运行作业的组件的类别列表 -

下面显示了 Talend Open Studio 中的大数据连接器和组件列表 -

tHDFSConnection - 用于连接到 HDFS（Hadoop 分布式文件系统）。
tHDFSInput - 读取给定 hdfs 路径中的数据，将其放入 Talend 架构中，然后将其传递到作业中的下一个组件。
tHDFSList - 检索给定 hdfs 路径中的所有文件和文件夹。
tHDFSPut - 将文件/文件夹从本地文件系统（用户定义）复制到给定路径的 hdfs。
tHDFSGet - 将文件/文件夹从 hdfs 复制到给定路径的本地文件系统（用户定义）。
tHDFSDelete - 从 HDFS 删除文件
tHDFSExist - 检查文件是否存在于 HDFS 上。
tHDFSOutput - 将数据流写入 HDFS。
tCassandraConnection - 打开到 Cassandra 服务器的连接。
tCassandraRow - 在指定的数据库上运行 CQL（Cassandra 查询语言）查询。
tHBaseConnection - 打开到 HBase 数据库的连接。
tHBaseInput - 从 HBase 数据库读取数据。
tHiveConnection - 打开到 Hive 数据库的连接。
tHiveCreateTable - 在 Hive 数据库中创建一个表。
tHiveInput - 从 Hive 数据库读取数据。
tHiveLoad - 将数据写入 Hive 表或指定目录。
tHiveRow - 在指定的数据库上运行 HiveQL 查询。
tPigLoad - 将输入数据加载到输出流。
tPigMap - 用于在 Pig 过程中转换和路由数据。
tPigJoin - 根据连接键执行 2 个文件的连接操作。
tPigCoGroup - 对来自多个输入的数据进行分组和聚合。
tPigSort - 根据一个或多个定义的排序键对给定数据进行排序。
tPigStoreResult - 将 Pig 操作的结果存储在定义的存储空间中。
tPigFilterRow - 筛选指定的列，以便根据给定条件拆分数据。
tPigDistinct - 从关系中删除重复的元组。
tSqoopImport - 将数据从关系数据库（如 MySQL、Oracle DB）传输到 HDFS。
tSqoopExport - 将数据从 HDFS 传输到关系数据库（如 MySQL、Oracle DB）

打印页面