Apache Beam.是一个开源统一编程模型,用于定义和执行批处理和流传输数据并行处理管道。光束模型基于数据流模型这使我们能够以优雅的方式表达逻辑,以便我们可以轻松地在批处理,窗口批处理或流之间切换。大数据处理生态系统一直在不断发展,这可能使得难以选择正确的数据处理引擎。选择光束的主要原因之一是它允许我们在几个月前 - 几个月前切换Apache Samza.被添加到它已经支持的其他参赛者中,包括阿帕奇火花那Apache Flink.和谷歌云数据流。不同的跑步者具有不同的功能,提供便携式API是一项艰巨的任务。光束试图通过积极地将这些跑步者的创新引入梁模型并与社区合作以影响这些跑步者的路线图来攻击微妙的平衡。Beam以多种语言具有SDK,包括Java,Python和Golang。我们也有成功使用scio.它在梁周围提供Scala包装器。
Apache Beam.是一个用于定义和执行批处理和流式数据并行处理管道的开源统一编程模型。光束提供便携式API图层,用于描述这些管道,无关,无关,例如执行引擎(或跑步者),例如阿帕奇火花那Apache Flink.或者谷歌云数据流。不同的跑步者具有不同的功能,提供便携式API是一项艰巨的任务。光束试图通过积极地将这些跑步者的创新引入梁模型并与社区合作以影响这些跑步者的路线图来攻击微妙的平衡。梁有一个丰富的内置I / O转换涵盖大部分数据流水线需求,它还提供了实现的机制自定义转换用于特定的用例。可移植的API和可扩展的IO转换为评估Apache Beam的数据管道需求提供了一个令人信服的理由。