Apache Flink - 批处理与实时处理



在大数据领域,有两种类型的处理方式:

  • 批处理
  • 实时处理

基于一段时间内收集的数据进行处理称为批处理。例如,银行经理想要处理过去一个月的(随时间收集的)数据,以了解过去一个月内有多少支票被取消。

基于即时数据进行处理以获取即时结果称为实时处理。例如,银行经理在发生欺诈交易(即时结果)后立即收到欺诈警报。

下表列出了批处理和实时处理之间的区别:

批处理 实时处理

静态文件

事件流

以分钟、小时、天等为周期进行处理

立即处理

纳秒

磁盘存储上的历史数据

内存存储

示例 - 账单生成

示例 - ATM 交易警报

如今,实时处理在每个组织中都得到了广泛应用。诸如欺诈检测、医疗保健中的实时警报和网络攻击警报等用例都需要对即时数据进行实时处理;即使延迟几毫秒也可能产生巨大影响。

对于此类实时用例,理想的工具应该是能够将数据作为流而不是批次输入的工具。Apache Flink 就是这样的实时处理工具。

广告