spark mllib如何实现TF-IDF
发表于:2024-11-23 作者:千家信息网编辑
千家信息网最后更新 2024年11月23日,这篇文章给大家分享的是有关spark mllib如何实现TF-IDF的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。运行代码如下package spark.FeatureEx
千家信息网最后更新 2024年11月23日spark mllib如何实现TF-IDF
这篇文章给大家分享的是有关spark mllib如何实现TF-IDF的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
运行代码如下
package spark.FeatureExtractionAndTransformationimport org.apache.spark.mllib.feature.{HashingTF, IDF}import org.apache.spark.{SparkContext, SparkConf}/** * TF-IDF 是一种简单的文本特征提取算法 * 词频(Term Frequency): 某个关键词在文本中出现的次数 * 逆文档频率(Inverse Document Frequency): 大小与一个词的常见程度成反比 * TF = 某个词在文章中出现的次数/文章的总词数 * IDF = log(查找的文章总数 / (包含该词的文章数 + 1)) * TF-IDF = TF(词频) x IDF(逆文档频率) * 此处未考虑去除停用词(辅助词,如副词,介词等)和 * 语义重构("数据挖掘","数据结构",拆分成"数据","挖掘","数据","结构") * 这样两个完全不同的文本具有 50% 的相似性,是非常严重的错误. * Created by eric on 16-7-24. */object TF_IDF { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("TF_IDF") //设定名称 val sc = new SparkContext(conf) def main(args: Array[String]) { val documents = sc.textFile("/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/a.txt") .map(_.split(" ").toSeq) val hashingTF = new HashingTF() //首先创建TF计算实例 val tf = hashingTF.transform(documents).cache()//计算文档TF值 val idf = new IDF().fit(tf) //创建IDF实例并计算 val tf_idf = idf.transform(tf) //计算TF_IDF词频 tf_idf.foreach(println)// (1048576,[179334,596178],[1.0986122886681098,0.6931471805599453])// (1048576,[586461],[0.1823215567939546])// (1048576,[422129,586461],[0.6931471805599453,0.1823215567939546])// (1048576,[586461,596178],[0.1823215567939546,0.6931471805599453])// (1048576,[422129,586461],[0.6931471805599453,0.1823215567939546]) }}
a.txt
hello mllibsparkgoodBye sparkhello sparkgoodBye spark
结果如下
感谢各位的阅读!关于"spark mllib如何实现TF-IDF"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
文章
数据
文本
文档
词频
内容
实例
更多
次数
篇文章
结构
频率
不同
不错
实用
相似
两个
介词
代码
关键
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
2022年网络安全介绍
大练兵网络安全专题教育
上海夺畅网络技术有限公司广州公司
布比网络技术张恒
服务器内存品牌
服务器上的光驱有什么用
选择软件开发岗位的理由
三声万物互联网科技有限公司
歌尔的软件开发面试题
citrix 服务器
人大数据库是什么意思
公共信息网络安全检查处
局域网怎么跨网段连数据库
网络安全法27条规定是什么
网络安全教育进入军营
厦门大学有网络安全吗
在上市公司做软件开发
小说软件开发需要什么
ssl服务器证书无效
战地1离线服务器
坑梓一对一学软件开发
安徽省网络安全应急中心
以数据库为例开放源代码
网络安全专项演习的时间
网络技术犯罪 的趋势
简述关于网络安全的具体要素
宽城区网络技术有哪些
衢州企业软件开发设计
2022魔兽世界服务器推荐
网络安全法律体系特点