Flink学习

发布时间：2024年01月18日

批处理和流处理的区别

批处理和流处理是数据处理的两种主要方式，它们在处理时间、数据量和处理方式上有一些不同。

处理时间：
批处理是在一段时间内收集的数据，然后进行处理，一般情况下，这些数据是静态的，处理完成后再进行下一次处理。
流处理则是实时（或者接近实时）处理数据，数据一进入系统就被处理，不需要等待整批数据都收集完毕再进行处理。

数据量：
批处理通常处理的数据量非常大，因为它需要等待一段时间内的数据收集完毕再进行处理。
流处理则可以处理较小的数据量，甚至单个事件，因为它实时处理数据，无需等待。

处理方式：
批处理通常一次处理所有数据，处理过程可能会耗费较长时间
但在处理大规模数据，如历史数据分析，统计等场景时非常合适
流处理则需要能够快速处理单个事件或数据，以保证实时性
适用于需要实时反馈的场景，如实时监控，实时推荐等

个人理解：一个注重时间，一个注重量级

什么是flink

Apache Flink是一个开源的大数据处理框架，可以进行批量数据处理和流数据处理。

在设计上，Flink具有高度的灵活性和健壮性，并且可以进行近乎实时的数据处理。

以下是Apache Flink的一些主要特性和优点：

时间处理
Flink具有内建的时间处理和周期事件生成函数，使得开发者可以更方便地进行时序数据的处理。
状态管理
Flink提供了强大的状态管理和容错机制，保证了数据处理的正确性和稳定性。
高性能
通过流处理和内存计算的方式，Flink可以大大提高数据处理的效率。
丰富的API
Flink提供了丰富的API，支持各种数据处理和计算需求，如批处理、流处理、图计算、机器学习等。
可扩展性
Flink支持大规模的数据处理任务，可以根据需要进行扩展。

总的来说，Apache Flink是一个功能强大、性能优秀的大数据处理框架，被广泛应用于大数据处理和分析的场景中。

文章来源:https://blog.csdn.net/wangkai6666/article/details/135647739
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！