Spark 分析网站排名热度
发表于:2025-01-24 作者:千家信息网编辑
千家信息网最后更新 2025年01月24日,需求:/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》// 前面有一个wordCount---》 算出次数出来 --》 考虑
千家信息网最后更新 2025年01月24日Spark 分析网站排名热度
需求:
/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》
// 前面有一个wordCount---》 算出次数出来 --》 考虑什么作为key
//算的一个网站下面,每个子模块下面的网页热度前2名 :
// 算的一个网站下面,每个子模块下面的网页热度前2名 --》 每个子模块下面的网页的次数的前2名
// 在实际开发中,真正代码时间可能只占20-30% ,其他时间都在理解需求,想思路
import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}
object Data_anlysis { def main(args: Array[String]) { val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]") val sc = new SparkContext(conf) val linesRDD = sc.textFile("d://web_data.log") val rdd01 =linesRDD.map(line => { val lineSplited = line.split("\t") (lineSplited(1),1) }) val rdd02 = rdd01.reduceByKey(_+_) val rdd03 = rdd02.map(tup => { val url = tup._1; val host = new URL(url).getHost (host,url,tup._2) }) val rdd04 = rdd03.groupBy(_._1) val rdd05 = rdd04.mapValues(iter => { iter.toList.sortBy(_._3).reverse.take(2) }) println(rdd05.collect().toBuffer) sc.stop() }}
运行结果会把网站的日志数据按照某一模块的要求列出排名前2个结果展示出来。
模块
个子
热度
网站
网页
面的
时间
次数
结果
需求
排序
代码
在理
实际
就是
思路
数据
日志
开发
运行
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库数据剪切
数据库分布式架构
数据库 控件
嘟嘟网络技术有限公司客服
软件开发公司需要会计么
智慧城市数据中台数据库选型
机架式服务器主机数据库
r440服务器默认密码
联想服务器保修查询
关于网络安全资料的概念
倩女幽魂朱雀桥服务器
手机软件开发那好
网络ghost服务器
java 数据库驱动下载
数据库常用技术有哪些类型
把二进制图片放到数据库中
数据库索引的值是怎么计算的
网络安全与执法 考研
大学生网络技术协会部长指责
超好用的免费在线服务器管理工具
湖北正规网络技术收费
江苏警校网络安全专业
浙江网络技术服务有哪些
网络安全风险提示通知单
安卓显示数据库数据代码
智慧城市数据中台数据库选型
ap认证软件开发前景
大数据库如何创造价值
服务器工作用电量
什么是计算机网络技术大赛