spark技巧有哪些呢
发表于:2025-01-24 作者:千家信息网编辑
千家信息网最后更新 2025年01月24日,spark技巧有哪些呢,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1. 设置消息尺寸最大值def main(args:
千家信息网最后更新 2025年01月24日spark技巧有哪些呢
spark技巧有哪些呢,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
1. 设置消息尺寸最大值
def main(args: Array[String]) { System.setProperty("spark.akka.frameSize", "1024")}
2.与yarn结合时设置队列
val conf=new SparkConf().setAppName("WriteParquet")conf.set("spark.yarn.queue","wz111")val sc=new SparkContext(conf)
3.运行时使用yarn分配资源,并设置--num-executors参数
nohup /home/SASadm/spark-1.4.1-bin-hadoop2.4/bin/spark-submit--name mergePartition--class main.scala.week2.mergePartition--num-executors 30--master yarnmergePartition.jar >server.log 2>&1 &
4.读取impala的parquet,对String串的处理
sqlContext.setConf("spark.sql.parquet.binaryAsString","true")
5.parquetfile的写
case class ParquetFormat(usr_id:BigInt , install_ids:String )val appRdd=sc.textFile("hdfs://").map(_.split("\t")).map(r=>ParquetFormat(r(0).toLong,r(1)))sqlContext.createDataFrame(appRdd).repartition(1).write.parquet("hdfs://")
6.parquetfile的读
val parquetFile=sqlContext.read.parquet("hdfs://")parquetFile.registerTempTable("install_running")val data=sqlContext.sql("select user_id,install_ids from install_running")data.map(t=>"user_id:"+t(0)+" install_ids:"+t(1)).collect().foreach(println)
7.写文件时,将所有结果汇集到一个文件
repartition(1)
8.如果重复使用的rdd,使用cache缓存
cache()
9.spark-shell 添加依赖包
spark-1.4.1-bin-hadoop2.4/bin/spark-shell local[4] --jars code.jar
10.spark-shell使用yarn模式,并使用队列
spark-1.4.1-bin-hadoop2.4/bin/spark-shell --master yarn-client --queue wz111
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。
文件
队列
帮助
技巧
最大
清楚
内容
参数
对此
尺寸
文章
新手
更多
最大值
模式
消息
知识
结果
缓存
行业
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发系统项目负责人要求
怎么保证公司网络安全
河南住房之家互联网科技
软件开发一次性付款
余杭区域的互联网科技公司
数据库修改用户quota
方舟手游服务器开好后要等多久
语言资源有声数据库
军营网络安全宣传周活动启动仪式
数据库多出一行怎么办
互联网网络安全现状2022
广东盘位机架式服务器
如何修改用友数据库表
三菱服务器和电机
2018网络安全答案文库
政府网络安全事件通报
江西汇友网络技术有限公司
单体架构单一数据库缺点
全国网络安全知识竞赛网站
北京精英网络技术咨询项目
网络技术人员的道德
数据库管理与应用的体会
美国vpn服务器
云数据库云服务器
北京品牌软件开发价格走势
点赞数据库代码
软件开发现场人员数量控制
徐州创投项目管控软件开发平台
网络安全演讲题目有哪些
单路服务器主板多大