spark mllib如何实现基于卡方校验的特征选择
发表于:2024-12-12 作者:千家信息网编辑
千家信息网最后更新 2024年12月12日,这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。运行代码如下package spark.Feat
千家信息网最后更新 2024年12月12日spark mllib如何实现基于卡方校验的特征选择
这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
运行代码如下
package spark.FeatureExtractionAndTransformationimport org.apache.spark.mllib.feature.ChiSqSelectorimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkConf, SparkContext}/** * 基于卡方校验的特征选择 * 卡方校验: * 在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布. * 是统计样本的实际值与理论推断值之间的偏离程度. * 卡方值越小,越趋于符合 * * Created by eric on 16-7-24. */object FeatureSelection { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("TF_IDF") //设定名称 val sc = new SparkContext(conf) def main(args: Array[String]) { val data = MLUtils.loadLibSVMFile(sc, "/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/fs.txt") val discretizedData = data.map { lp => //创建数据处理空间 LabeledPoint(lp.label, Vectors.dense(lp.features.toArray.map {x => x/2})) } val selector = new ChiSqSelector(2)//创建选择2个特性的卡方校验 val transformer = selector.fit(discretizedData)//创建训练模型 val filteredData = discretizedData.map { lp => //过滤前两个特性 LabeledPoint(lp.label, transformer.transform(lp.features)) } filteredData.foreach(println)// (0.0,[1.0,0.5])// (1.0,[0.0,0.0])// (0.0,[1.5,1.5])// (1.0,[0.5,0.0])// (1.0,[2.0,1.0]) }}
fs.txt
0 1:2 2:1 3:0 4:11 1:0 2:0 3:1 4:00 1:3 2:3 3:2 4:21 1:1 2:0 3:4 4:31 1:4 2:2 3:3 4:1
结果如下
感谢各位的阅读!关于"spark mllib如何实现基于卡方校验的特征选择"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
选择
特征
内容
更多
样本
特性
篇文章
处理
推断
统计
不错
实用
两个
之间
代码
变量
名称
实际
数据
数据处理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
如何保持企业数据库安全
福建品牌软件开发商家
尔雅课计算机网络技术
紫山互联网科技
网络安全研究生211
机器人应用软件开发招聘
sql数据库怎么显示颜色
深圳智能消防软件开发怎么样
腾讯云服务器nfs 映射本地
个人服务器租用 安全吗
德厚网络技术公司
蜗牛移动网络技术有限公司
计算机怎么提示网络安全性
云服务器 硬盘
福建数据库安全箱行业
计算机网络技术工程系统
大数据库如何设置增长
中国网络总服务器
关于中小学生网络安全教育
广东网络安全产业总量
为什么数据库列的别名排序排不了
主存数据库和磁盘驻留数据库区别
靠谱app软件开发费用
苏州服务器加速
计算机四级数据库工程师上机
关于网络安全的英语句子
建立dna数据库很难吗
图书馆数据库安全卫士
文档软件开发设计
如何与软件开发方协调