导航：首页 > 服务器 >

spark mllib中朴素贝叶斯算法怎么用

发表于：2025-02-05 作者：千家信息网编辑

千家信息网最后更新 2025年02月05日，这篇文章主要介绍spark mllib中朴素贝叶斯算法怎么用，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！优点对待预测样本进行预测，过程简单速度快(想想邮件分类的问题，预测就是

千家信息网最后更新 2025年02月05日spark mllib中朴素贝叶斯算法怎么用

这篇文章主要介绍spark mllib中朴素贝叶斯算法怎么用，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

优点

对待预测样本进行预测，过程简单速度快(想想邮件分类的问题，预测就是分词后进行概率乘积，在log域直接做加法更快)。
对于多分类问题也同样很有效，复杂度也不会有大程度上升。
在分布独立这个假设成立的情况下，贝叶斯分类器效果奇好，会略胜于逻辑回归，同时我们需要的样本量也更少一点。
对于类别类的输入特征变量，效果非常好。对于数值型变量特征，我们是默认它符合正态分布的。

缺点

对于测试集中的一个类别变量特征，如果在训练集里没见过，直接算的话概率就是0了，预测功能就失效了。当然，我们前面的文章提过我们有一种技术叫做『平滑』操作，可以缓解这个问题，最常见的平滑技术是拉普拉斯估测。
那个…咳咳，朴素贝叶斯算出的概率结果，比较大小还凑合，实际物理含义…恩，别太当真。
朴素贝叶斯有分布独立的假设前提，而现实生活中这些predictor很难是完全独立的。

最常见应用场景

文本分类/垃圾文本过滤/情感判别：这大概会朴素贝叶斯应用做多的地方了，即使在现在这种分类器层出不穷的年代，在文本分类场景中，朴素贝叶斯依旧坚挺地占据着一席之地。原因嘛，大家知道的，因为多分类很简单，同时在文本数据中，分布独立这个假设基本是成立的。而垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。
多分类实时预测：这个是不是不能叫做场景？对于文本相关的多分类实时预测，它因为上面提到的优点，被广泛应用，简单又高效。
推荐系统：是的，你没听错，是用在推荐系统里！！朴素贝叶斯和协同过滤(Collaborative Filtering)是一对好搭档，协同过滤是强相关性，但是泛化能力略弱，朴素贝叶斯和协同过滤一起，能增强推荐的覆盖度和效果。

运行代码如下

package spark.logisticRegressionimport org.apache.spark.mllib.classification.NaiveBayesimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkContext, SparkConf}/**  * 朴素贝叶斯僵尸粉鉴定(朴素贝叶斯需要非负特征值)  * 正常用户标记为１，虚假用户标记为０  * V(v1,v2,v3)  * v1 = 已发微博/注册天数  * v2 = 好友数量/注册天数  * v3 = 是否有手机  * 已发微博/注册天数　< 0.05, V1 = 0  * 0.05 <= 已发微博/注册天数　< 0.75, V1 = 1  * 0.75 <= 已发微博/注册天数, V1 = 2  * Created by eric on 16-7-19.  */object zombieFansBayes {  val conf = new SparkConf()   //创建环境变量    .setMaster("local")        //设置本地化处理    .setAppName("ZombieBayes") //设定名称  val sc = new SparkContext(conf)  def main(args: Array[String]) {    val data = sc.textFile("./src/main/spark/logisticRegression/data.txt")    val parsedData = data.map { line =>      val parts = line.split(',')      LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))    }    val splits = parsedData.randomSplit(Array(0.7, 0.3), seed = 11L)                     //对数据进行分配    val trainingData = splits(0)                                                                     //设置训练数据    val testData = splits(1)                                                                 //设置测试数据    val model = NaiveBayes.train(trainingData, lambda = 1.0)                  //训练贝叶斯模型    val predictionAndLabel = testData.map(p => (model.predict(p.features), p.label)) //验证模型    val accuracy = 1.0 * predictionAndLabel.filter(                                        //计算准确度        label => label._1 == label._2).count()                                           //比较结果    println(accuracy)    val test = Vectors.dense(0, 0, 10)    val result = model.predict(test)//预测一个特征　    println(result)//2  }}

data.txt

0,1 0 00,2 0 00,3 0 00,4 0 01,0 1 01,0 2 01,0 3 01,0 4 02,0 0 12,0 0 22,0 0 32,0 0 4

结果如图

以上是"spark mllib中朴素贝叶斯算法怎么用"这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注行业资讯频道！

很赞哦！

贝叶朴素分类文本特征天数效果数据独立变量场景垃圾概率结果问题发微应用推荐训练算法数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全腐蚀pve服务器怎么下载 mysql数据库与表刑法修正案九网络技术服务器管理员试卷学院开展网络安全教育会简报我的世界1.0服务器开挂网络安全技术的现状调查报告网络安全事件分析顺序信息网络技术的优势数据库供应管理查询零件香港人需要遵守网络安全法吗邵阳口碑好的软件开发中介如何查看服务器有几路cpu 答辩数据库关键字 mmo分布式服务器地图怎么处理南通电信服务器租赁广东服务器机柜费用随机进服务器会发生什么我的世界电脑版怎么找服务器号六年级网络安全征文换服务器CPU步骤长沙经开区计算机软件开发 msfc连接数据库软件开发分析阶段用什么工具工程学现刊数据库荒野乱斗服务器价格加强网站网络安全三河冶金软件开发报价湖南品质软件开发服务价钱 mc云之天地服务器

千家信息网

千家信息网

spark mllib中朴素贝叶斯算法怎么用

优点

缺点

最常见应用场景

运行代码如下

结果如图

云主机跟VPS主机的区别是什么

Centos 5.4中怎么安装zabbix 1.8.2

相关文章