elasticsearch智能推荐系统用到的二分类模型是怎样的
本篇内容主要讲解"elasticsearch智能推荐系统用到的二分类模型是怎样的",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"elasticsearch智能推荐系统用到的二分类模型是怎样的"吧!
1. 算法设计概览
算法方案的设计,在整体思路的指导下,先从数据调研入手,明确模型开发应用过程中需要着重关注的问题。在算法方案设计中,加入对问题的考量,以期得到优化的模型结果。
整体算法方案如下图所示:
2. 样本构造
样本构造对于任意数据挖掘场景都至关重要,推荐系统也不例外。
一般而言,用户的购买是偏少的,所以单单使用用户购买作为正样本,会导致样本量很少。为了解决这个问题,将用户有行为的课程定义为正样本,其他的定义为负样本。这些行为包括:点击、收藏、分享、加购物车、购买等,由于各种行为代表的用户对课程的偏好度是不同的,所以在后续建模中会通过样本权重的方式体现出来。
用户产生过行为的课程,只是所有课程中很小的一部分,所以如果直接把用户没有产生过行为的课程作为负样本,会导致正负样本比例严重失衡。所以在实际建模过程中,会对负样本进行抽样,根据以往的经验,抽样后正负样本比例可以设置为1:80。
3. 特征工程
本节将对特征工程的开展思路进行描述,最终采用的特征,还需要根据数据情况进行调整。以下仅供参考,具体情况可详见《标签/筛选体系》。
l 短期用户行为的特征加工
类目下课程被点击、收藏、分享、加购物车、购买等的次数
不同标签下课程被点击、收藏、分享、购买等的次数
用户近期是否点击、收藏该课程
l 课程属性特征
课程所属类目
课程所属标签
课程销量和相似课程销量均值的比值
课程价格和相似课程价格均值的比值
近期被点击次、分享、收藏、加购物车的次数
课程标题词的个数、图片个数、以及和相似课程的均值的比值
上架天数
l 用户属性特征
性别、年龄、职业、地域、app使用天数
l 用户长期偏好
矩阵分解得到的用户标签偏好
用户价格偏好
4. 模型训练
模型训练主要考虑PLM、LightGBM、FM等模型,各模型各有优劣:
l PLM 在线性模型的基础上加入分块,可以实现非线性的效果。训练和预测速度快,适应大规模稀疏特征。
l LightGBM 基于决策树的迭代式模型。适合于稠密特征,模型精度高。但训练、预测速度不高,不适用于大规模稀疏特征。
l FM 自动进行特征之间的交叉,能发现有用的特征交叉。训练和预测速度快,但本质上是线性模型,可能效果不能得到保证。
在评价指标的选择上,主要关注准确率,兼顾覆盖率,准确率考虑采用MAP@k,DDCG@k等评价指标。
在项目开展过程中对各模型进行分别调优,并根据评价指标迭代式地优化特征和模型,不断提升离线评估效果。
5. 评价指标
在评价指标的选择上,主要从用户满意度、预测准确度以及覆盖率3个方面考虑:
l 用户的满意度是评测推荐系统最重要的指标,但是用户满意度无法通过离线计算,一般通过用户调查、在线实验获取。或者可以通过分析用户行为日志计算用户满意度,大致的计算方式为:计算推荐的课程中,用户购买并且评分较高的课程的占比。
l 预测准确度是最重要的推荐系统离线评测指标,包含评分预测和TopN推荐两个方面。评分预测的预测准确度通过均方根误差(RMSE)和平均绝对误差(MAE)度量;TopN推荐的预测准确度通过准确度(Precision)和召回率(Recall)度量。
l 覆盖率(Coverage)描述的是一个推荐系统对物品长尾的发掘能力,其定义指标有2种。第一种是信息熵,计算公式如下:
这里p(i)是物品i的流行度除以所有物品流行度之和。
第二种是基尼指数,计算公式如下:
这里ij是按照物品流行度p(i)从小到大排序的物品列表中第j个物品。
另外mAP@k,DDCG@k等也是模型评测的重要指标。
在项目开展过程中对各模型进行分别调优,并权衡各项评价指标迭代式地优化特征和模型,不断提升离线评估效果。
6. 模型应用
在模型实际应用中,需要关注模型的运行效率,更新频率等方面,下面对这两个方面进行展开。
1) 预测效率
对全量的用户和课程组合进行预测的话,需要进行n*m条记录进行预测,其中n为用户数,m为课程数,非常消耗资源。所以对于单个用户,需要筛选一部分课程,只预测用户对这些课程的偏好评分。目前考虑将以下几部分课程纳入预测范围:
l 运营课程
l 热门课程
主要针对新用户,用于给他们推荐人们课程
l 用户近期常点击类目下的课程、近期常点击标签下的课程
用户近期常点击的课程,某种程度上代表了用户近期的需求
而近期常点标签,具有某种程度的发散性,比如关于品牌的标签会发散到同品牌课程,关于功用的标签会发散到同功用课程
有助于新上架课程的发现
l 基于协同过滤算法给出的推荐课程
用标签代替课程,进行基于用户的协同过滤和基于课程的协同过滤,对于推荐课程的新颖性会带来提升
2) 更新频率
目前的算法设计为一天更新一次。在每天夜里,会将今天的新数据纳入模型训练、预测的范围,包括新产生的用户行为,新课程信息,新用户数据。
因为目前模型是离线模型,用户当前新产生的行为并不会影响推荐结果,要等到第二天模型更新完成后才会产生新的推荐。
3) 场景结合
模型对商品作出预测后,会生成用户对商品的偏好得分。下面对于三个不同的场景分开进行设计。
1. 对运营商品进行推荐
首先从运营表中获取运营商品的id,接着关联用户商品评分表,获取用户对商品的偏好度,按偏好度控制app上商品的显示顺序
2. 对指定类目下商品进行推荐
首先获取指定类目下商品的id,接着关联用户商品评分表,获取用户对商品的偏好度,按偏好度控制app上商品的显示顺序。
3. 搜索推荐
通过ElasticSearch获取商品搜索相关度后,关联用户商品评分表,将用户对商品的偏好度乘以搜索相关度,得到综合评分,按该评分控制app上搜索商品的显示顺序。
到此,相信大家对"elasticsearch智能推荐系统用到的二分类模型是怎样的"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!