导航：首页 > 服务器 >

spark内核RDD的count操作是什么

发表于：2025-01-24 作者：千家信息网编辑

千家信息网最后更新 2025年01月24日，这篇文章主要介绍"spark内核RDD的count操作是什么"，在日常操作中，相信很多人在spark内核RDD的count操作是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对

千家信息网最后更新 2025年01月24日spark内核RDD的count操作是什么

这篇文章主要介绍"spark内核RDD的count操作是什么"，在日常操作中，相信很多人在spark内核RDD的count操作是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答"spark内核RDD的count操作是什么"的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

RDD源码的count方法：

从上面代码可以看出来，count方法触发SparkContext的runJob方法的调用：

进一步跟踪runJob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal)方法：

2、clean(func)：

代码分析：

3.1、进入submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties)：

上面代码分析：

3.1.1、进入new JobWaiter(this, jobId, partitions.size, resultHandler)方法

我们可以看出来，是给自己发消息的

3.1.3、进入 dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite,listener, properties)方法

首先构建finalStage，然后又一个getMissingParentsStages方法，可以发现运行有本地运行和集群运行两种模式，本地运行主要用于本地实验和调试：

3.1.3.1、进入 finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)方法：

3.1.3.2、进入 runLocally(job)方法：

3.1.3.3.2、进入 getMissingParentStages(stage).sortBy(_.id) 方法：

跟进getShuffleMapState方法：

3.1.3.3.3、进入submitMissingTasks(stage, jobId.get) 方法：

到此，关于"spark内核RDD的count操作是什么"的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注网站，小编会继续努力为大家带来更多实用的文章！

很赞哦！

千家信息网

千家信息网

spark内核RDD的count操作是什么

vsan 节点部署，如果遇到磁盘分区删不到，如何处理？

Linux系统启动的引导流程是什么

相关文章