Spark整合Mongodb的方法
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用M
千家信息网最后更新 2025年01月31日Spark整合Mongodb的方法
Spark介绍
按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。
通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。
快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式。当需要处理的数据需要反复迭代时,Spark可以直接在内存中暂存数据,而无需像Map Reduce一样需要把数据写回磁盘。官方的数据表明:它可以比传统的Map Reduce快上100倍。
大规模:原生支持HDFS,并且其计算节点支持弹性扩展,利用大量廉价计算资源并发的特点来支持大规模数据处理。
环境准备
mongodb下载
解压安装
启动mongodb服务
$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log
pom依赖
org.mongodb.spark mongo-spark-connector_2.11 ${spark.version}
实例代码
object ConnAppTest { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[2]") .appName("ConnAppTest") .config("spark.mongodb.input.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb输入 .config("spark.mongodb.output.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb输出 .getOrCreate() // 生成测试数据 val documents = spark.sparkContext.parallelize((1 to 10).map(i => Document.parse(s"{test: $i}"))) // 存储数据到mongodb MongoSpark.save(documents) // 加载数据 val rdd = MongoSpark.load(spark) // 打印输出 rdd.show } }
总结
以上所述是小编给大家介绍的Spark整合Mongodb的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对网站的支持!
数据
支持
处理
大规模
大规
内存
官方
数据处理
通用性
输出
方法
整合
成功
代码
传统
原因
实例
常规
引擎
弹性
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
广西麟泽栋网络技术有限公司
软件开发中心java
微信的聊天记录存入自己的数据库
关系型数据库需求
网络安全app那些好用
京东金融网络安全吗
不能进行分离的数据库有哪些
服务器网卡槽
柠檬云服务器错误
用友2005数据库安装视频
金融需要哪些软件开发
网络技术员的前景怎么样
云管理平台是服务器吗
完美竞技平台匹配服务器开哪个好
服务器错误设置头像失败
软件开发完成由谁决定
ios软件开发是什么专业
计算机网络技术威胁因素
数据库update执行后删除
传统互联网的数据管理强调服务器
优良网络安全配置
关系数据库是由哪两个组成
湖北乐户网络技术有限公司
软联软件开发公司
ee计算机软件开发
网络安全教育知识读本
原神小米服务器在哪下载
360比较优秀的网络安全人员
运营商服务器的算力
组织部网络安全自查