导航：首页 > 互联网科技 >

Spark LDA 实例

发表于：2025-02-03 作者：千家信息网编辑

千家信息网最后更新 2025年02月03日，Spark LDA 实例一、准备数据数据格式为：documents: RDD[(Long, Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；通过分词以及数据格式的转换，转

千家信息网最后更新 2025年02月03日Spark LDA 实例

Spark LDA 实例

一、准备数据

数据格式为：documents: RDD[(Long, Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；

通过分词以及数据格式的转换，转换成RDD[(Long, Vector)]即可。

二、建立模型

import org.apache.spark.mllib.clustering._val ldaOptimizer = new OnlineLDAOptimizer().setOptimizeDocConcentration(true)val lda = new LDA()lda.setK(params.k).setMaxIterations(params.maxIterations).setDocConcentration(params.docConcentration).setTopicConcentration(params.topicConcentration).setOptimizer(ldaOptimizer).setCheckpointInterval(10).setSeed(1234)val modelLDA: LDAModel = lda.run(corpus)modelLDA.save(sc.sparkContext, params.modelPath)

三、模型参数

case class NewsParams(    k: Int = 100,    maxIterations: Int = 100,    docConcentration: Double = -1,    topicConcentration: Double = -1,    stopWordFile: String = "zh_stopwords.txt",    modelPath: String = "LDAModel.14.100",    ldaJsonPath:String = "ldaModel.14.200.json",    vocabPath: String = "vocab_info" )

四、结果输出

topicsMatrix以及topics(word,topic))输出。mllib上的lda不是分布式的，目前只存储topic的信息，而不存储doc的信息，如果获取只能使用ml中的lda或者通过以下代码实现。

val ldaModel = lda.run(documents)val distLDAModel = ldaModel.asInstanceOf[DistributedLDAModel]distLDAModel.topicDistributions

很赞哦！

数据信息文章格式模型存储输出实例代码分布式参数向量结果准备数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全分布式数据库调整 hit服务器的ip 浙江学软件开发需要学什么游戏不同地方服务器一样吗东光县网络安全和信息化委员数据库视图出错怎么办网络安全的四个坚持的主要内容数据库的安全性的含义武汉嵌入式软件开发招聘安家费 sql 两表删除数据库车轮互联网科技有限公司招聘数据库建立的要求小规模软件开发行业税率广东时代网络技术分类市场价某中小企业设计网络技术湖南工程软件开发平台阿里云服务器怎么转卖国家网络安全相关的小品相声网络安全组策略陆行鸟服务器角色限制集团网络安全部署讲话物业公司网络安全管理办法张博北京软件开发中老年网络安全素养的提升网宿科技互联网乐歌股份互联网科技股梅州虚拟服务器管理软件国家网络安全相关的小品相声华为云香港服务器一年多少钱苹果邮件发件服务器

千家信息网

千家信息网

Spark LDA 实例

Spark LDA 实例

php信号量和共享内存的概念是什么

c++右值引用和移动构造是什么

相关文章