千家信息网

Spark2.x入门中SparkStreaming的工作原理是什么

发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧
千家信息网最后更新 2025年02月23日Spark2.x入门中SparkStreaming的工作原理是什么

本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

官网翻译大体意思如下:

SparkStreaming是核心SparkApi的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis或TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将Spark的机器学习和图形处理算法应用于数据流。

内部工作原理:SparkStreaming接受实时输入数据流,并将数据分成批次,然后由Spark engine处理,以批量生成最终的结果流。

DStream是SparkStreaming流提供的基本抽象。它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流。在内部,DStream由一系列连续的RDD表示,RDD是Spark对不可变的分布式数据集的抽象。DStream中的每个RDD包含来自某个间隔的数据,如下图所示。

应用于DStream上的任何操作都转换为底层RDD上的操作。例如,在前面将一个行流转换为单词的示例中,flatMap操作应用于行DStream中的每个RDD,以生成单词DStream的RDD。如下图所示。

这些底层的RDD转换是由Spark引擎计算的。DStream操作隐藏了这些细节中的大部分,并为开发人员提供了更高级的API。这些操作将在后面的小节中详细讨论。

SparkStreaming 、Flink 、Storm 三种流式处理框架对比分析


SparkStreamingFlinkStorm
吞吐量
高吞吐高吞吐低吞吐
实时性
秒级延迟低延迟,毫秒级(百毫秒)低延迟,毫秒级(几十毫秒)
乱序、延迟处理

flink通过warterMarker水印支持乱序和延迟处理,这个spark没有
保证次数
exactly-onceexactly-onceat-least-once
动态调整并行度
不支持支持支持
容错
基于RDD的checkpoint
基于分布式Snapshot的checkpoint
基于Record记录的ack机制

以上就是Spark2.x入门中SparkStreaming的工作原理是什么,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。

数据 处理 数据流 吞吐 延迟 支持 工作 原理 实时 算法 应用 输入 高级 分布式 单词 吞吐量 底层 更多 知识 篇文章 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 福田网络数据库维护哪里有 攀枝花天气预报软件开发 上海优果网络技术有限公司 云南哪所大学有网络安全专业 计算机应用技术软件开发的 pg数据库查数据偏移 数据库中登录错误如何设置 北京推广网络技术收费 基因银行数据库 软件开发事中验证 题库软件开发书籍 泰安易事通股票软件开发公司 嵌入式软件开发学多久 服务器网速测试 网络安全培训会讲话 ftp服务器的设计与实现 网络安全脚本设置 网络技术营销合作模式 女生做软件测试还是软件开发 吴中区知名服务器优质推荐 请谈谈你对软件开发的认识 工业控制网络技术课后答案第六章 北京冬奥网络安全保障中心 ef中实体怎样创建数据库表 网络安全零信任安全 预付的软件开发费入账 服务器管理器查看 平顶山跑腿app软件开发多少钱 小度打开有关服务器的照片 大智慧汽车售后软件开发公司
0