千家信息网

SogouQ中如何计算查询词URL最优 Rank

发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,这期内容当中小编将会给大家带来有关SogouQ中如何计算查询词URL最优 Rank,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。PS1: 日志原格式是GB2312编
千家信息网最后更新 2025年02月03日SogouQ中如何计算查询词URL最优 Rank

这期内容当中小编将会给大家带来有关SogouQ中如何计算查询词URL最优 Rank,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8

PS2: 日志格式和格式说明:

访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL,

这个格式有坑, 深坑:

"该URL在返回结果中的排名\t用户点击的顺序号"这两个字段之间的分割符并不是制表符\t, 而是空格

val sogouQRdd = sc.textFile("hdfs://node1:9000/sogouQ/input")sogouQRdd.cache    # 在下一次Action操作时, 将日志文件缓存到内存中

求出日志文件条目总数

val itemCountRdd = sogouQRdd.countitemCountRdd: Long = 1724264

对于每一个查询词, 求出该 URL 在返回结果中的排名为1, 且用户点击的顺序号为1的条目总数

这说明此次搜索结果的 URL 的 Rank 最优

val suitableRankRdd = sogouQRdd.filter(_.split('\t').length == 5).map(_.split('\t')).filter(_(3).split(' ')(0).toInt == 1).filter(_(3).split(' ')(1).toInt == 1).countsuitableRankRdd: Long = 279859

计算查询词 URL 最优 Rank 的频率:

最优Rank频率 = URL最优Rank次数 / 条目总数

suitableRankRdd / itemCountRdd = 0.1623

所以查询词 URL最优Rank 的频率为 16.23%

上述就是小编为大家分享的SogouQ中如何计算查询词URL最优 Rank了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。

查询 用户 日志 格式 结果 总数 条目 顺序 顺序号 频率 内容 文件 求出 分析 专业 两个 中小 之间 内存 内容丰富 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 数据库中增加一条 网络安全大赛战队名称排名 计算机网络技术开始试题库 软件开发5大原则 勇士与旅途怎么找回以前的服务器 软件开发负责人的资质 软件开发有那几种 卫生行业网络安全自查总结 我的世界服务器主城设计图图片 创建的数据库的ip怎么查看 网络技术保障岗待遇怎么样 3D软件开发用什么 网络安全一路同行中石化主题征文 黑龙江电信代理服务器云服务器 网络安全TCP中文 移动 无法连接到服务器 服务器RAID有多少种配置 服务器主板打游戏好吗 开通会员连接不上苹果x服务器 等保2.0网络安全架 lol登录卡在连接服务器 宁波游戏软件开发商 网站邮件服务器设置 山西网络安全建设 通州区正规网络技术诚信合作 数据库结构设计符号 为什么塔科夫老是服务器连接失败 杭州科技互联网产业带动房价 深圳酒店软件开发咨询 无锡专业软件开发销售方法
0