- Talend 教程
- Talend - 首页
- Talend - 简介
- Talend - 系统需求
- Talend - 安装
- Talend Open Studio
- Talend - 数据集成
- Talend - 模型基础
- 数据集成组件
- Talend - 作业设计
- Talend - 元数据
- Talend - 上下文变量
- Talend - 作业管理
- Talend - 处理作业执行
- Talend - 大数据
- Hadoop 分布式文件系统
- Talend - Map Reduce
- Talend - 使用 Pig
- Talend - Hive
- Talend 有用资源
- Talend - 快速指南
- Talend - 有用资源
- Talend - 讨论
Talend - 大数据
Open Studio 与大数据的标语是“使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT。” 在本章中,让我们深入了解 Talend 作为在大数据环境中处理数据的工具的用法。
介绍
Talend Open Studio – Big Data 是一款免费且开源的工具,可让您在大数据环境中非常轻松地处理数据。Talend Open Studio 中提供了大量的大数据组件,只需简单地拖放几个 Hadoop 组件,即可创建和运行 Hadoop 作业。
此外,我们无需编写大量 MapReduce 代码;Talend Open Studio Big data 通过其中提供的组件帮助您完成此操作。它会自动为您生成 MapReduce 代码,您只需拖放组件并配置一些参数即可。
它还允许您连接到多个大数据发行版,如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。
Talend 大数据组件
下面显示了 Big Data 下包含用于在 Big Data 环境中运行作业的组件的类别列表 -
下面显示了 Talend Open Studio 中的大数据连接器和组件列表 -
tHDFSConnection - 用于连接到 HDFS(Hadoop 分布式文件系统)。
tHDFSInput - 读取给定 hdfs 路径中的数据,将其放入 Talend 架构中,然后将其传递到作业中的下一个组件。
tHDFSList - 检索给定 hdfs 路径中的所有文件和文件夹。
tHDFSPut - 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的 hdfs。
tHDFSGet - 将文件/文件夹从 hdfs 复制到给定路径的本地文件系统(用户定义)。
tHDFSDelete - 从 HDFS 删除文件
tHDFSExist - 检查文件是否存在于 HDFS 上。
tHDFSOutput - 将数据流写入 HDFS。
tCassandraConnection - 打开到 Cassandra 服务器的连接。
tCassandraRow - 在指定的数据库上运行 CQL(Cassandra 查询语言)查询。
tHBaseConnection - 打开到 HBase 数据库的连接。
tHBaseInput - 从 HBase 数据库读取数据。
tHiveConnection - 打开到 Hive 数据库的连接。
tHiveCreateTable - 在 Hive 数据库中创建一个表。
tHiveInput - 从 Hive 数据库读取数据。
tHiveLoad - 将数据写入 Hive 表或指定目录。
tHiveRow - 在指定的数据库上运行 HiveQL 查询。
tPigLoad - 将输入数据加载到输出流。
tPigMap - 用于在 Pig 过程中转换和路由数据。
tPigJoin - 根据连接键执行 2 个文件的连接操作。
tPigCoGroup - 对来自多个输入的数据进行分组和聚合。
tPigSort - 根据一个或多个定义的排序键对给定数据进行排序。
tPigStoreResult - 将 Pig 操作的结果存储在定义的存储空间中。
tPigFilterRow - 筛选指定的列,以便根据给定条件拆分数据。
tPigDistinct - 从关系中删除重复的元组。
tSqoopImport - 将数据从关系数据库(如 MySQL、Oracle DB)传输到 HDFS。
tSqoopExport - 将数据从 HDFS 传输到关系数据库(如 MySQL、Oracle DB)