如何分析K-means Clustering
发表于:2024-11-29 作者:千家信息网编辑
千家信息网最后更新 2024年11月29日,如何分析K-means Clustering ,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。一:算法K-means 算法是机器学习
千家信息网最后更新 2024年11月29日如何分析K-means Clustering
如何分析K-means Clustering ,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
一:算法
K-means 算法是机器学习 聚类算法中很常用,也是最基本的一种算法。聚类算法属于无监督学习算法。算法的步骤分为以下两步:1,根据分组大小K的值,找出K个中心点,而这时候其他点也根据距离中心点的距离划分给这个中心点。2,找出每个cluster最优的中心点,重新分配点,并迭代。
二:Spark MLlib
Spark MLlib 提供了K-means算法的实现。
数据来源
数据来源于KDD CUP网站,这些数据是网络连接的数据,下载
找到data -> kddcup.data.zip 并下载。
数据每行格式如下:
0,tcp,http,SF,215,45076, 0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1, 0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00, 0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal.
除了最后一个为label外,其余的都是features。label可能并不准确,这些label仅仅标示能发现的异常,但是k-means却能找到未知的异常。
2.读取数据
val rawDataPath = "Your kddcup.data.txt Path" val rawData = sc.textFile(rawDataPath) val labelsAndData = rawData.flatMap { line => val buffer = line.split(',').toBuffer if (buffer.length == 42) { buffer.remove(1, 3) val label = buffer.remove(buffer.length - 1) val vector = Vectors.dense(buffer.map(_.toDouble).toArray) Some(label, vector) } else { None } }
数据除掉了第2,3,4列,最后一列数据。
3. K-Means算法
val kmeans = new KMeans() kmeans.setK(k) //默认的K为2 kmeans.setRuns(10) //找寻中心点运行次数 kmeans.setEpsilon(1.0e-6) //找寻中心点每次变化距离,越小越远 val model = kmeans.run(data)
使用生成的model并聚类
val clusterLabelCount = labelsAndData.map { case (label,datum) => val cluster = model.predict(datum) (cluster,label) }.countByValue clusterLabelCount.toSeq.sorted.foreach {case ((cluster,label),count) =>println(f"$cluster%1s$labels$count%8s")}
4.如何选择K
K的选择是个问题,正常说来,K值越大,聚类的效果越好。想象下,如果每个点都是单独的一个类。。
另外,我们可以使用其他点距离中心点的距离来查看聚类的效果:
def distance(a: Vector, b: Vector) = { math.sqrt(a.toArray.zip(b.toArray).map(p => p._1 - p._2).map(p => p*p).sum) } def distToCentroid(datum: Vector, model: KMeansModel) = { val cluster = model.predict(datum) val centroid = model.clusterCenters(cluster) distance(centroid, datum) } def clusteringScore(data: RDD[Vector], k: Int) = { val kmeans = new KMeans() kmeans.setK(k) kmeans.setRuns(10) kmeans.setEpsilon(1.0e-6) val model = kmeans.run(data) data.map(datum => distToCentroid(datum, model)).mean() } (30 to 150 by 10 ).map(k => clusteringScore(data,k)).foreach(println)
有了评估,我们可以依次查看K的大小对聚类的影响。
关于如何分析K-means Clustering 问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。
算法
数据
中心点
问题
分析
大小
效果
更多
来源
学习
帮助
解答
选择
易行
简单易行
内容
小伙
小伙伴
常用
方法
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
内蒙古原子软件开发有限公司
驱动软件开发与设计是软件目标
国资背景网络安全上市公司
手机软件开发模式
中国最好网络安全学院有几所
软件开发模式调试模式生产模式
联通网络安全的彩页
高港区环保网络技术厂家价格
数据库网站起名
从化软件开发联系电话
基于模型驱动软件开发
大数据与数据库有什么关系
剑灵无日峰服务器
郑州哪个软件开发公司好
lnternet代理服务器作用
应用系统和软件开发的区别
rpf服务器不可用什么意思
加一点网络技术有限公司
服务器传说
舜宇智能光学软件开发
数据库表的索引创建
考勤系统增加新员工数据库
嘉定区海航软件开发供应商
oracle 数据库功能
可租用的国外云服务器
新吴区运营软件开发
逃离塔科夫连回服务器一直黑屏
asp数据库生成器
市级以上网络安全保护
数据库关闭连接后怎么打开连接