SogouQ中如何计算查询词URL最优 Rank
发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,这期内容当中小编将会给大家带来有关SogouQ中如何计算查询词URL最优 Rank,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。PS1: 日志原格式是GB2312编
千家信息网最后更新 2025年02月03日SogouQ中如何计算查询词URL最优 Rank
这期内容当中小编将会给大家带来有关SogouQ中如何计算查询词URL最优 Rank,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8
PS2: 日志格式和格式说明:
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL,
这个格式有坑, 深坑:
"该URL在返回结果中的排名\t用户点击的顺序号"这两个字段之间的分割符并不是制表符\t, 而是空格
val sogouQRdd = sc.textFile("hdfs://node1:9000/sogouQ/input")sogouQRdd.cache # 在下一次Action操作时, 将日志文件缓存到内存中
求出日志文件条目总数
val itemCountRdd = sogouQRdd.countitemCountRdd: Long = 1724264
对于每一个查询词, 求出该 URL 在返回结果中的排名为1, 且用户点击的顺序号为1的条目总数
这说明此次搜索结果的 URL 的 Rank 最优
val suitableRankRdd = sogouQRdd.filter(_.split('\t').length == 5).map(_.split('\t')).filter(_(3).split(' ')(0).toInt == 1).filter(_(3).split(' ')(1).toInt == 1).countsuitableRankRdd: Long = 279859
计算查询词 URL 最优 Rank 的频率:
最优Rank频率 = URL最优Rank次数 / 条目总数
suitableRankRdd / itemCountRdd = 0.1623
所以查询词 URL最优Rank 的频率为 16.23%
上述就是小编为大家分享的SogouQ中如何计算查询词URL最优 Rank了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
查询
用户
日志
格式
结果
总数
条目
顺序
顺序号
频率
内容
文件
求出
分析
专业
两个
中小
之间
内存
内容丰富
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库中增加一条
网络安全大赛战队名称排名
计算机网络技术开始试题库
软件开发5大原则
勇士与旅途怎么找回以前的服务器
软件开发负责人的资质
软件开发有那几种
卫生行业网络安全自查总结
我的世界服务器主城设计图图片
创建的数据库的ip怎么查看
网络技术保障岗待遇怎么样
3D软件开发用什么
网络安全一路同行中石化主题征文
黑龙江电信代理服务器云服务器
网络安全TCP中文
移动 无法连接到服务器
服务器RAID有多少种配置
服务器主板打游戏好吗
开通会员连接不上苹果x服务器
等保2.0网络安全架
lol登录卡在连接服务器
宁波游戏软件开发商
网站邮件服务器设置
山西网络安全建设
通州区正规网络技术诚信合作
数据库结构设计符号
为什么塔科夫老是服务器连接失败
杭州科技互联网产业带动房价
深圳酒店软件开发咨询
无锡专业软件开发销售方法