千家信息网

浅谈Spark算子

发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,RDD的操作类型分为两类:Ø Transformation,根据原有的RDD创建一个新的RDDØ actions,对RDD操作后把结果返回给driverTransfrmation操作是延迟的,也就是说
千家信息网最后更新 2025年02月03日浅谈Spark算子

RDD的操作类型分为两类

Ø Transformation,根据原有的RDD创建一个新的RDD

Ø actions,对RDD操作后把结果返回给driver

Transfrmation操作是延迟的,也就是说从一个RDD转换到另一个RDD的转换不是马上执行的,需要等到有Action操作的时候才会真正触发运算。

Action会触发Spark提交作业,并将数据输出spark系统。

从小方向来说,Spark 算子大致可以分为以下三类:

  (1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。
  (2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。

  (3)Action算子,这类算子会触发SparkContext提交Job作业。

例如map是一个转换,他把RDD中的数据经过一系列的转换后转换成一个新的RDD,而reduce则是一个action,它收集RDD所有的数据经过一系列的处理,最后把结果传递给driver

RDD的所有转换操作都是lazy模式的,即Spark不会立马计算出结果,而是记住所有对数据集的转换操作,这些转换只有遇到action的时候才会开始计算。这样的设计使得spark更加高效。例如,对一个数据做一次map操作后进行reduce操作,只有reduce的结果返回给driver,而不是把数据量更大的map操作后传递给driver。

1.1 Transformation

transformation返回一个新的RDD方式有很多,如从数据源生成一个新的RDD,从RDD生成一个新的RDD。所有的transformation都是采用的懒策略,就是只将transformation提交是不会执行的。

详情参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html

1.2 Action

Action是得到一个值,或者一个结果。计算只有在action被提交的时候才被触发。




欢迎关注个人微信公众号:大数据and机器学习(CLbigdata)


数据 算子 结果 作业 只有 时候 类型 处理 数据项 变换 生成 个人 也就是 也就是说 从小 公众 就是 数据源 方向 方式 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 杭州网络技术主要是干嘛的 安全的数据库应用系统设计 河北古海网络技术 象山一站式软件开发企业 azure如何关联数据库 网络安全方面的论文题目有哪些 网络文明主题公园宣传网络安全 上海索卫网络技术有限公司 筑牢网络安全屏障讨论 mysql数据库表备份 牛人网络安全知识 大学生为网络安全要做什么 网络安全产品公司排行 人人都能学会网络技术 海南芒果产业数据库 深圳棋牌游戏软件开发 大学数据库管理系统学什么 20位网络安全精英获奖 欣鼎网络技术服务有限公司骗局 云服务器 配置选择 山东农副互联网科技有限公司 网络安全防护和监测预警体系 我的世界服务器主城保护传送指令 电脑提示无法连接服务器更新 渝中区一站式网络技术包括什么 手机游戏请求超时连接不上服务器 服务器 ibm dell 网络安全主题手抄报水彩画 网络数据库的应用场景 网络安全法 施行时间
0