千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 互联网科技 >

spark入门知识和job任务提交流程

发表于：2024-11-30 作者：千家信息网编辑

千家信息网最后更新 2024年11月30日，spark是Apache开源社区的一个分布式计算引擎，基于内存计算，所以速度要快于hadoop.下载地址spark.apache.org安装复制一台单独的虚拟机，名c修改其ip，192.168.56.

千家信息网最后更新 2024年11月30日spark入门知识和job任务提交流程

spark是Apache开源社区的一个分布式计算引擎，基于内存计算，所以速度要快于hadoop.

下载

地址spark.apache.org

安装

复制一台单独的虚拟机，名c
修改其ip，192.168.56.200
修改其hostname为c，hostnamectl set-hostname c
修改/etc/hosts加入对本机的解析
重启网络服务 systemctl restart network
上传spark安装文件到root目录
解压spark到/usr/local下，将其名字修改为spark

本地运行模式

使用spark-submit提交job

cd /usr/local/spark
./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000

使用spark-shell进行交互式提交

创建root下的文本文件hello.txt
./bin/spark-shell
再次连接一个terminal，用jps观察进程，会看到spark-submit进程
sc
sc.textFile("/root/hello.txt")
val lineRDD = sc.textFile("/root/hello.txt")
lineRDD.foreach(println)
观察网页端情况
val wordRDD = lineRDD.flatMap(line => line.split(" "))
wordRDD.collect
val wordCountRDD = wordRDD.map(word => (word,1))
wordCountRDD.collect
val resultRDD = wordCountRDD.reduceByKey((x,y)=>x+y)
resultRDD.collect
val orderedRDD = resultRDD.sortByKey(false)
orderedRDD.collect
orderedRDD.saveAsTextFile("/root/result")
观察结果
简便写法：sc.textFile("/root/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect

使用local模式访问hdfs数据

start-dfs.sh
spark-shell执行：sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect （可以把ip换成master，修改/etc/hosts）
sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().saveAsTextFile("hdfs://192.168.56.100:9000/output1")

spark standalone模式

在master和所有slave上解压spark
修改master上conf/slaves文件，加入slave
修改conf/spark-env.sh，export SPARK_MASTER_HOST=master
复制spark-env.sh到每一台slave
cd /usr/local/spark
./sbin/start-all.sh
在c上执行：./bin/spark-shell --master spark://192.168.56.100:7077 (也可以使用配置文件)
观察http://master:8080

spark on yarn模式

文件模式观察进程简便交互式内存再次写法分布式名字地址引擎情况数据文本目录社区结果网络数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全浦东新区推广软件开发活动简介服务器有中国制造吗建立健全网络安全传输制度 mcpepvp服务器网络安全a岗是什么意思连接samba服务器数据库与或优先级账本服务器 h5软件开发是什么网络安全教育ppt开头服务器网页控制台全球网络安全专业最强大学排如何获取移动个人服务器礼县网络安全执法手机sd无法写入数据库国泰安数据库能查找到年报么小区宽带缓存服务器广州正规软件开发哪家实惠员工之家服务器地址怎么加强系统的网络安全 Orcl数据库未连接服务器主动推送数据到前端的方法华为服务器网卡聚合 kindle推送服务器 it软件开发工程师培训数据库delete原理绝地求生的主播都在哪个服务器数据库卸不掉怎么办网络安全朋友圈说说软件开发公司常用资质

相关文章