Spark LDA 实例
发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,Spark LDA 实例一、准备数据数据格式为:documents: RDD[(Long, Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转
千家信息网最后更新 2025年02月03日Spark LDA 实例
Spark LDA 实例
一、准备数据
数据格式为:documents: RDD[(Long, Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;
通过分词以及数据格式的转换,转换成RDD[(Long, Vector)]即可。
二、建立模型
import org.apache.spark.mllib.clustering._val ldaOptimizer = new OnlineLDAOptimizer().setOptimizeDocConcentration(true)val lda = new LDA()lda.setK(params.k).setMaxIterations(params.maxIterations).setDocConcentration(params.docConcentration).setTopicConcentration(params.topicConcentration).setOptimizer(ldaOptimizer).setCheckpointInterval(10).setSeed(1234)val modelLDA: LDAModel = lda.run(corpus)modelLDA.save(sc.sparkContext, params.modelPath)
三、模型参数
case class NewsParams( k: Int = 100, maxIterations: Int = 100, docConcentration: Double = -1, topicConcentration: Double = -1, stopWordFile: String = "zh_stopwords.txt", modelPath: String = "LDAModel.14.100", ldaJsonPath:String = "ldaModel.14.200.json", vocabPath: String = "vocab_info" )
四、结果输出
topicsMatrix以及topics(word,topic))输出。mllib上的lda不是分布式的,目前只存储topic的信息,而不存储doc的信息,如果获取只能使用ml中的lda或者通过以下代码实现。
val ldaModel = lda.run(documents)val distLDAModel = ldaModel.asInstanceOf[DistributedLDAModel]distLDAModel.topicDistributions
数据
信息
文章
格式
模型
存储
输出
实例
代码
分布式
参数
向量
结果
准备
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
分布式数据库调整
hit服务器的ip
浙江学软件开发需要学什么
游戏不同地方服务器一样吗
东光县网络安全和信息化委员
数据库视图出错怎么办
网络安全的四个坚持的主要内容
数据库的安全性的含义
武汉嵌入式软件开发招聘安家费
sql 两表 删除数据库
车轮互联网科技有限公司招聘
数据库建立的要求
小规模软件开发行业税率
广东时代网络技术分类市场价
某中小企业设计网络技术
湖南工程软件开发平台
阿里云服务器怎么转卖
国家网络安全相关的小品相声
网络安全组策略
陆行鸟服务器角色限制
集团网络安全 部署讲话
物业公司网络安全管理办法
张博北京软件开发
中老年网络安全素养的提升
网宿科技互联网
乐歌股份互联网科技股
梅州虚拟服务器管理软件
国家网络安全相关的小品相声
华为云香港服务器一年多少钱
苹果邮件发件服务器