千家信息网

spark mlilib 聚类 KMeans怎么用

发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这篇文章主要为大家展示了"spark mlilib 聚类 KMeans怎么用",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"spark mlilib 聚类
千家信息网最后更新 2025年02月02日spark mlilib 聚类 KMeans怎么用

这篇文章主要为大家展示了"spark mlilib 聚类 KMeans怎么用",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"spark mlilib 聚类 KMeans怎么用"这篇文章吧。

聚类使用场景

数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等

运行代码如下

package spark.clusteringimport org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.{SparkContext, SparkConf}/**  * 一般来说,分类是指有监督的学习,即要分类的样本是有标记的,类别是已知的;  * 聚类是指无监督的学习,样本没有标记,根据某种相似度度量,将样本聚为 K类.  *  * 聚类KMEANS  * 基本思想和核心内容就是在算法开始时随机给定若干(k)个中心,按照距离原则将样本点分配到各个中心点,  * 之后按照平均法计算聚类集的中心点位置,从而重新确定新的中心点位置.这样不断地迭代下去直至聚类集内的样本满足一定的阈值为止.  *  * Created by eric on 16-7-21.  */object Kmeans {  val conf = new SparkConf()                                     //创建环境变量    .setMaster("local")                                             //设置本地化处理    .setAppName("KMeans")                              //设定名称  val sc = new SparkContext(conf)  def main(args: Array[String]) {    val data = sc.textFile("./src/main/spark/clustering/kmeans.txt")    val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))      .cache()    val numClusters = 2 //最大分类数    val numIterations = 20 //迭代次数    val model = KMeans.train(parsedData, numClusters, numIterations)    model.clusterCenters.foreach(println)//分类中心点    //[1.4000000000000001,2.0]    //[3.6666666666666665,3.6666666666666665]  }}

kmeans.txt

1 21 11 32 23 44 32 24 4

结果如下

以上是"spark mlilib 聚类 KMeans怎么用"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

样本 学习 中心点 内容 分类 数据 篇文章 位置 信息 标记 分析 帮助 监督 迭代 相似 一般来说 不断 代码 原则 变量 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 非关系形数据库有哪些 买服务器务器 西城区信息网络技术推广诚信服务 网络安全谷歌 未来网络安全保卫工作发展趋势 数据库的备份设备在哪看 公安信息网络安全技术专业 服务器每日关机确认表 第十届网络安全知识竞赛 重庆区县软件开发 网络安全监管领域 数据库建设技术规范 分布式网络技术的优点 什么是历史上传数据库 信息安全与数据库管理课程 铁路网络安全知识竞赛答案 广东理工学院服务器地址 sql数据库是否一直写硬盘 无锡常见网络技术标准 武威网络安全工程师软考 当前的软件开发模式有 计算机网络技术中的磁介质载体 linux服务器夯住连接不上 系统数据库安装教程 文明使用网络安全教育教案 软件开发申请政府补贴报告 仙桃千晴网络技术有限公司 墨魂服务器 小米系统数据直接接入反诈数据库 国外网络安全身份认证文献
0