- Apache Flume 教程
- Apache Flume 首页
- Apache Flume 简介
- Hadoop 中的数据传输
- Apache Flume 架构
- Apache Flume 数据流
- Apache Flume 环境
- Apache Flume 配置
- Apache Flume 获取 Twitter 数据
- 序列生成器源
- Apache Flume NetCat 源
- Apache Flume 资源
- Apache Flume 快速指南
- Apache Flume 有用资源
- Apache Flume 讨论
Apache Flume 简介
什么是 Flume?
Apache Flume 是一款用于收集、聚合和传输大量流式数据的工具/服务/数据摄取机制,例如来自各种来源的日志文件、事件(等等)到中心化数据存储。
Flume 是一款高度可靠、分布式且可配置的工具。它主要设计用于将流式数据(日志数据)从各种 Web 服务器复制到 HDFS。
Flume 的应用
假设一个电子商务 Web 应用程序想要分析特定区域的客户行为。为此,他们需要将可用的日志数据移动到 Hadoop 中进行分析。在这里,Apache Flume 可以帮上忙。
Flume 用于以更高的速度将应用程序服务器生成的日志数据移动到 HDFS。
Flume 的优势
以下是使用 Flume 的优势:
使用 Apache Flume,我们可以将数据存储到任何中心化存储中(HBase、HDFS)。
当传入数据的速率超过写入目标数据的速率时,Flume 充当数据生产者和中心化存储之间的中介,并在它们之间提供稳定的数据流。
Flume 提供了上下文路由功能。
Flume 中的事务是基于通道的,其中为每条消息维护两个事务(一个发送者和一个接收者)。它保证可靠的消息传递。
Flume 可靠、容错、可扩展、可管理且可定制。
Flume 的特性
Flume 的一些显著特性如下:
Flume 高效地将来自多个 Web 服务器的日志数据导入中心化存储(HDFS、HBase)。
使用 Flume,我们可以立即将来自多个服务器的数据导入 Hadoop。
除了日志文件,Flume 还用于导入社交网络站点(如 Facebook 和 Twitter)和电子商务网站(如 Amazon 和 Flipkart)生成的巨量事件数据。
Flume 支持大量的源和目标类型。
Flume 支持多跳流、扇入扇出流、上下文路由等。
Flume 可以水平扩展。
广告