spark调优(三):RDD重构和持久化
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,第一,RDD架构重构与优化尽量去复用RDD,差不多的RDD,可以抽取称为一个共同的RDD,供后面的RDD计算时,反复使用。第二,公共RDD一定要实现持久化对于要多次计算和使用的公共RDD,一定要进行持
千家信息网最后更新 2025年01月31日spark调优(三):RDD重构和持久化
第一,RDD架构重构与优化
尽量去复用RDD,差不多的RDD,可以抽取称为一个共同的RDD,供后面的RDD计算时,反复使用。
第二,公共RDD一定要实现持久化
对于要多次计算和使用的公共RDD,一定要进行持久化。
持久化,也就是说,将RDD的数据缓存到内存中/磁盘中,(BlockManager),以后无论对这个RDD做多少次计算,那么都是直接取这个RDD的持久化的数据,比如从内存中或者磁盘中,直接提取一份数据。
第三,持久化,是可以进行序列化的
如果正常将数据持久化在内存中,那么可能会导致内存的占用过大,这样的话,也许,会导致OOM内存溢出。
当纯内存无法支撑公共RDD数据完全存放的时候,就优先考虑,使用序列化的方式在纯内存中存储。将RDD的每个partition的数据,序列化成一个大的字节数组,就一个对象;序列化后,大大减少内存的空间占用。
序列化的方式,唯一的缺点就是,在获取数据的时候,需要反序列化。
如果序列化纯内存方式,还是导致OOM,内存溢出;就只能考虑磁盘的方式,内存+磁盘的普通方式(无序列化)。
内存
序列
数据
方式
磁盘
时候
重构
普通
差不多
这样的话
也就是
也就是说
字节
对象
就是
数组
架构
空间
缓存
缺点
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
学《网络安全》有感
加拿大cft网络技术公司
福建工程学院数据库怎么用
软件开发工程师 年龄
双服务器管理
互联网科技每日分析
一汽大众移动办公软件开发商
软件开发2019就业
大学生学生网络安全守则
计算机软件开发年龄限制
实施工程师数据库基础知识笔试题
4G8核服务器
软件开发面试英语自我介绍
数据库箭头什么意思啊
黄岛区管理系统软件开发解决方案
临沂新商网络技术公司
数据库表建立索引
数据库创建登录名和密码代码
部分数据库管理系统可以
遂宁软件开发价格走势
计算机网络安全核心
服务器和域名空间的区别
软件开发如何转管理办法
手机用什么控制服务器
cbm是英文数据库么
如何实时抽取数据库
以网络安全手抄报为主题图片
国资委网络安全保障工作汇报
广州市中智软件开发
青少年该如何做网络安全小卫士