spark mllib如何实现TF-IDF
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这篇文章给大家分享的是有关spark mllib如何实现TF-IDF的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。运行代码如下package spark.FeatureEx
千家信息网最后更新 2025年02月02日spark mllib如何实现TF-IDF
这篇文章给大家分享的是有关spark mllib如何实现TF-IDF的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
运行代码如下
package spark.FeatureExtractionAndTransformationimport org.apache.spark.mllib.feature.{HashingTF, IDF}import org.apache.spark.{SparkContext, SparkConf}/** * TF-IDF 是一种简单的文本特征提取算法 * 词频(Term Frequency): 某个关键词在文本中出现的次数 * 逆文档频率(Inverse Document Frequency): 大小与一个词的常见程度成反比 * TF = 某个词在文章中出现的次数/文章的总词数 * IDF = log(查找的文章总数 / (包含该词的文章数 + 1)) * TF-IDF = TF(词频) x IDF(逆文档频率) * 此处未考虑去除停用词(辅助词,如副词,介词等)和 * 语义重构("数据挖掘","数据结构",拆分成"数据","挖掘","数据","结构") * 这样两个完全不同的文本具有 50% 的相似性,是非常严重的错误. * Created by eric on 16-7-24. */object TF_IDF { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("TF_IDF") //设定名称 val sc = new SparkContext(conf) def main(args: Array[String]) { val documents = sc.textFile("/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/a.txt") .map(_.split(" ").toSeq) val hashingTF = new HashingTF() //首先创建TF计算实例 val tf = hashingTF.transform(documents).cache()//计算文档TF值 val idf = new IDF().fit(tf) //创建IDF实例并计算 val tf_idf = idf.transform(tf) //计算TF_IDF词频 tf_idf.foreach(println)// (1048576,[179334,596178],[1.0986122886681098,0.6931471805599453])// (1048576,[586461],[0.1823215567939546])// (1048576,[422129,586461],[0.6931471805599453,0.1823215567939546])// (1048576,[586461,596178],[0.1823215567939546,0.6931471805599453])// (1048576,[422129,586461],[0.6931471805599453,0.1823215567939546]) }}
a.txt
hello mllibsparkgoodBye sparkhello sparkgoodBye spark
结果如下
感谢各位的阅读!关于"spark mllib如何实现TF-IDF"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
文章
数据
文本
文档
词频
内容
实例
更多
次数
篇文章
结构
频率
不同
不错
实用
相似
两个
介词
代码
关键
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
浪潮服务器运用的不同场景
河南省超越网络技术有限公司
内蒙古数据中心服务器
网络安全大会简介
极致互动网络技术
服务器维护还能进吗
河南新一代软件开发标准
简历软件开发 录用测试工程师
软件开发社招45岁
搭建云免流服务器视频
西安铁成网络技术有限公司
国有企业网络安全自查工作
服务器坏了怎么连接网络
林业空间数据库常见的要素类型
r星服务器退出
乌克兰网络安全厂商
bmf数据库工具软件
电商平台app软件开发哪家好
印度网络安全
网络安全考试报告总结报告
C 安卓短信数据库
松江区技术软件开发机构整顿
数据库原理关系的解释
公安局内部网络安全事件
顺丰员工删除数据库
网络安全张建辉
越先出的服务器越好吗
关系型数据库和分布式缓存服务
csmar数据库查行业均值吗
数据网络技术架构