千家信息网

spark mllib如何实现基于卡方校验的特征选择

发表于:2024-12-12 作者:千家信息网编辑
千家信息网最后更新 2024年12月12日,这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。运行代码如下package spark.Feat
千家信息网最后更新 2024年12月12日spark mllib如何实现基于卡方校验的特征选择

这篇文章给大家分享的是有关spark mllib如何实现基于卡方校验的特征选择的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

运行代码如下

package spark.FeatureExtractionAndTransformationimport org.apache.spark.mllib.feature.ChiSqSelectorimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkConf, SparkContext}/**  * 基于卡方校验的特征选择  * 卡方校验:  * 在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布.  * 是统计样本的实际值与理论推断值之间的偏离程度.  * 卡方值越小,越趋于符合  *  * Created by eric on 16-7-24.  */object FeatureSelection {  val conf = new SparkConf()                                     //创建环境变量    .setMaster("local")                                             //设置本地化处理    .setAppName("TF_IDF")                              //设定名称  val sc = new SparkContext(conf)  def main(args: Array[String]) {    val data = MLUtils.loadLibSVMFile(sc, "/home/eric/IdeaProjects/wordCount/src/main/spark/FeatureExtractionAndTransformation/fs.txt")    val discretizedData = data.map { lp => //创建数据处理空间      LabeledPoint(lp.label, Vectors.dense(lp.features.toArray.map {x => x/2}))    }    val selector = new ChiSqSelector(2)//创建选择2个特性的卡方校验    val transformer = selector.fit(discretizedData)//创建训练模型    val filteredData = discretizedData.map { lp =>  //过滤前两个特性      LabeledPoint(lp.label, transformer.transform(lp.features))    }    filteredData.foreach(println)//    (0.0,[1.0,0.5])//    (1.0,[0.0,0.0])//    (0.0,[1.5,1.5])//    (1.0,[0.5,0.0])//    (1.0,[2.0,1.0])  }}

fs.txt

0 1:2 2:1 3:0 4:11 1:0 2:0 3:1 4:00 1:3 2:3 3:2 4:21 1:1 2:0 3:4 4:31 1:4 2:2 3:3 4:1

结果如下

感谢各位的阅读!关于"spark mllib如何实现基于卡方校验的特征选择"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

0