Spark2.x入门中SparkStreaming的工作原理是什么
本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
官网翻译大体意思如下:
SparkStreaming是核心SparkApi的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis或TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将Spark的机器学习和图形处理算法应用于数据流。
内部工作原理:SparkStreaming接受实时输入数据流,并将数据分成批次,然后由Spark engine处理,以批量生成最终的结果流。
DStream是SparkStreaming流提供的基本抽象。它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流。在内部,DStream由一系列连续的RDD表示,RDD是Spark对不可变的分布式数据集的抽象。DStream中的每个RDD包含来自某个间隔的数据,如下图所示。
应用于DStream上的任何操作都转换为底层RDD上的操作。例如,在前面将一个行流转换为单词的示例中,flatMap操作应用于行DStream中的每个RDD,以生成单词DStream的RDD。如下图所示。
这些底层的RDD转换是由Spark引擎计算的。DStream操作隐藏了这些细节中的大部分,并为开发人员提供了更高级的API。这些操作将在后面的小节中详细讨论。
SparkStreaming 、Flink 、Storm 三种流式处理框架对比分析
SparkStreaming | Flink | Storm | |
吞吐量 | 高吞吐 | 高吞吐 | 低吞吐 |
实时性 | 秒级延迟 | 低延迟,毫秒级(百毫秒) | 低延迟,毫秒级(几十毫秒) |
乱序、延迟处理 | 无 | flink通过warterMarker水印支持乱序和延迟处理,这个spark没有 | 无 |
保证次数 | exactly-once | exactly-once | at-least-once |
动态调整并行度 | 不支持 | 支持 | 支持 |
容错 | 基于RDD的checkpoint | 基于分布式Snapshot的checkpoint | 基于Record记录的ack机制 |
以上就是Spark2.x入门中SparkStreaming的工作原理是什么,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。