千家信息网

SparkStreaming与Kafka的整合是怎么样的

发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,这期内容当中小编将会给大家带来有关SparkStreaming与Kafka的整合是怎么样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。为什么有SparkStrea
千家信息网最后更新 2025年01月23日SparkStreaming与Kafka的整合是怎么样的

这期内容当中小编将会给大家带来有关SparkStreaming与Kafka的整合是怎么样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

为什么有SparkStreaming与Kafka的整合?

首先我们要知道为什么会有SparkStreaming与Kafka的整合,任何事情的出现都不是无缘无故的!

我们要知道Spark作为实时计算框架,它仅仅涉及到计算,并没有涉及到数据的存储,所以我们后期需要使用spark对接外部的数据源。SparkStreaming作为Spark的一个子模块,它有4个类型的数据源:

1.socket数据源(测试的时候使用)

2.HDFS数据源(会用到,但是用得不多)

3.自定义数据源(不重要,没怎么见过别人会自定义数据源)

4.扩展的数据源(比如kafka数据源,它非常重要,面试中也会问到)

下面SparkStreaming与Kafka的整合,但只讲原理,代码就不贴了,网上太多了,写一些自己理解的东西!

SparkStreaming整合Kafka-0.8

SparkStreaming与Kafka的整合要看Kafka的版本,首先要讲的是SparkStreaming整合Kafka-0.8。

在SparkStreaming整合kafka-0.8中,要想保证数据不丢失,最简单的就是靠checkpoint的机制,但是checkpoint机制有一个毛病,对代码进行升级后,checkpoint机制就失效了。所以如果想实现数据不丢失,那么就需要自己管理offset。

大家对代码升级会不会感到陌生,老刘对它好好解释一下!

我们在日常开发中常常会遇到两个情况,代码一开始有问题,改一下,然后重新打包,重新提交;业务逻辑发生改变,我们也需要重新修改代码!

而我们checkpoint第一次持久化的时候会整个相关的jar给序列化成一个二进制文件,这是一个独一无二的值做目录,如果SparkStreaming想通过checkpoint恢复数据,但如果代码发生改变,哪怕一点点,就找不到之前打包的目录,就会导致数据丢失!

所以我们需要自己管理偏移量!

用ZooKeeper集群管理偏移量,程序启动后,就会读取上一次的偏移量,读取到数据后,SparkStreaming就会根据偏移量从kafka中读取数据,读到数据后,程序会运行。运行完后,就会提交偏移量到ZooKeeper集群,但有一个小问题,程序运行挂了,但偏移量未提交,结果已经部分到HBase,再次重新读取的时候,会有数据重复,但只影响一批次,对大数据来说,影响太小!

但是有个非常严重的问题,当有特别多消费者消费数据的时候,需要读取偏移量,但ZooKeeper作为分布式协调框架,它不适合大量的读写操作,尤其是写操作。所以高并发的请求ZooKeeper是不适合的,它只能作为轻量级的元数据存储,不能负责高并发读写作为数据存储。

根据上述内容,就引出了SparkStreaming整合Kafka-1.0。

SparkStreaming整合Kafka-1.0

这个只是利用KafkaOffsetmonitor设计的一个方案,利用它对任务进行监控,接着利用爬虫技术获取监控的信息,再把数据导入到openfalcon里面,在openfalcon里根据策略配置告警或者自己研发告警系统,最后把信息利用企业微信或者短信发送给开发人员!

上述就是小编为大家分享的SparkStreaming与Kafka的整合是怎么样的了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。

数据 整合 数据源 偏移 代码 时候 内容 机制 程序 问题 存储 管理 运行 重要 信息 就是 框架 目录 集群 分析 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 运动员成绩管理系统数据库报告 深圳市星科网络技术有限公司 网络安全闯关视频 南京海奥普互联网科技有限公司 小榄戴尔服务器专卖店 神舟oscar数据库分页 调用sql表中的数据库 折叠纸盒结构设计软件开发 软件开发安全风险对策 牟平区管理系统软件开发哪家好 2017江西全省网络安全 数据库池如何连接数据库 石家庄腾盈网络技术有限公司 猎人导师修服务器 阿尔萨斯的礼物六零数据库 基于服务器的车间管理 天龙八部游戏服务器怎么安装 与计算机网络技术有关的公司名 软件开发竞争对手的优劣势 辩论赛自我介绍网络安全利弊 网站 linux 服务器 能够查询学术论文的数据库 折叠纸盒结构设计软件开发 西安交大数据库答案 数据库字段查阅属性 炫彩互联网科技 yymac版本服务器连接错误 人口基础数据库包括哪些数据 泉州微信插件 软件开发 网络安全是一个覆盖
0