千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 互联网科技 >

Spark SQL性能优化

发表于：2024-09-22 作者：千家信息网编辑

千家信息网最后更新 2024年09月22日，==> 在内存中缓存数据---> 性能调优主要是将数据放入内存中操作---> 使用例子：// 从 Oracle 数据库中读取数据，生成 DataFrameval oracleDF = spark.re

千家信息网最后更新 2024年09月22日Spark SQL性能优化

==> 在内存中缓存数据

---> 性能调优主要是将数据放入内存中操作

---> 使用例子：

// 从 Oracle 数据库中读取数据，生成 DataFrameval oracleDF = spark.read.format("jdbc")        .option("url", "jdbc:oracle:thin:@192.168.10.100:1521/orcl.example.com")        .option("dbtable", "scott.emp")        .option("user", "scott")        .option("password", "tiger").load        // 将 DataFrame 注册成表oracleDF.registerTempTable("emp")// 执行查询，并通过 Web Console 监控执行的时间spark.sql("select * from emp").show// 将表进行缓存，并查询两次，通过 Web Console 监控执行的时间spark.sqlContext.cacheTable("emp")// 清空缓存spark.sqlContext.cacheTable("emp")spark.sqlContext.clearCache

==> 优化相关参数

---> spark.sql.inMemoryColumnarStorage.compressed

---- 默认值： true

---- Spark SQL 将会基于统计信息自动地为每一列选择一种压缩编码方式

---> spark.sql.inMemoryColumnarStorage.batchSize

---- 默认值： 10000

---- 缓存批处理大小，较大的批处理可以提高内存利用率和压缩率，但同时也会带来 OOM(Out Of Memory)的风险

---> spark.sql.files.maxPartitionBytes

---- 默认值： 128M

---- 读取文件时单个分区可容纳的最大字节数

---> spark.sql.files.openCostinBytes

---- 默认值： 4M

---- 打开文件的估算成本，按照同一时间能够扫描的字节数来测量，当往一个分区写入多个文件时会使用，高估相对较好，这样小文件分区将会比大文件分区速度更快（优先调度）

---> spark.sql.autoBroadcastJoinThreshold

---- 默认值：10M

---- 用于配置一个表在执行 join 操作时能够广播给所有 worker 节点的最大字节大小，通地将这个值设置为-1可以禁用广播，

---- 注意：当前数据统计仅支持已经运行了 ANALYZE TABLE COMPUTE STATISTICS noscan 命令的 Hive Metastore 表

---> spark.sql.shuffle.partitions

---- 默认值： 200

---- 用于配置 join 或聚合操作混洗（shuffle）数据时使用的分区数

数据文件缓存内存字节时间最大大小广播查询监控统计配置性能较大例子信息利用率单个参数数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全曙光服务器怎么换内存条腾讯服务器在外国吗数据库技术及应用实训报告软件开发通知书守望先锋吃鸡服务器财务软件开发注意事项数据库删除某个表的命令上海项目软件开发信息推荐一个服务器有几个公网ip 幻灵游侠服务器被关闭啦吗资兴县电子软件开发培训班中国工商银行软件开发中心年终奖数据库表结构变更影响新鲜蔬菜配送系统软件开发服务器安全防护方案汕头pc软件开发定制 ssh怎么执行数据库查询平谷区节能软件开发报价技术规范成都软件开发教程数据库群发app 网络安全攻防实验系统厂商 db2数据库的时间怎么修改 ubuntu服务器版四川第一届网络安全技能大赛下列关于数据库的说法不正确的有兰州网络技术哪个好黄陂软件开发与定制山东德通网络技术有限公司塔式服务器连接方式开展网络安全自查报告

相关文章