如何进行FM算法原理分析与实践
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,本篇文章为大家展示了如何进行FM算法原理分析与实践,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。简介FM是Steffen Rendle在2010年提出的,FM
千家信息网最后更新 2025年01月31日如何进行FM算法原理分析与实践
本篇文章为大家展示了如何进行FM算法原理分析与实践,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
简介
FM是Steffen Rendle在2010年提出的,FM算法的核心在于特征组合,以此来减少人工参与特征组合工作。对于FM,其优势可分以下三点:
FM能处理数据高度稀疏场景,SVM则不能;
FM具有线性的计算复杂度,而SVM依赖于support vector。
FM能够在任意的实数特征向量中生效。
FM原理
FM的数据结构如下
FM通过不同特征的组合,生成新的含义。然而,特征组合也随之带来一些问题:
特征之间两两组合容易导致维度灾难;
组合后的特征未必有效,可能存在特征冗余现象;
组合后特征样本非常稀疏,如果原始样本中不存在对应的组合,则无法学习参数,那么该组合就显得无效。
虽然有这些缺点,但是也并不影响FM在广告推荐领域的地位,每个算法都有风靡一时的过去,抱着敬畏之心的态度去学习是没问题的。下面,来看看FM的算法原理。
目标函数
我们知道,线性模型的目标函数为:
分类模型
FM可以用来进行分类,为了方便,这里使用sklearn里面的iris数据集作为实验数据,将target等于2的作为正样本,其余作为负样本,并采用train_test_split方法划分训练集与测试集,然后通过FM构建分类模型,并通过测试集验证FM的效果。完整Demo代码如下
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from pyfm import pylibfm
from sklearn.feature_extraction import DictVectorizer
def load_data():
"""
调用sklearn的iris数据集,筛选正负样本并构造切分训练测试数据集
"""
iris_data = load_iris()
X = iris_data['data']
y = iris_data['target'] == 2
data = [ {v: k for k, v in dict(zip(i, range(len(i)))).items()} for i in X]
X_train,X_test,y_train, y_test = train_test_split(data,y, test_size=0.3, random_state=0)
return X_train,X_test,y_train, y_test
X_train,X_test,y_train, y_test = load_data()
v = DictVectorizer()
X_train = v.fit_transform(X_train)
X_test = v.transform(X_test)
fm = pylibfm.FM(num_factors=2,
num_iter=200,
verbose=True,
task="classification",
initial_learning_rate=0.001,
learning_rate_schedule="optimal")
fm.fit(X_train, y_train)
y_preds = fm.predict(X_test)
y_preds_label = y_preds > 0.5
from sklearn.metrics import log_loss,accuracy_score
print ("Validation log loss: %.4f" % log_loss(y_test, y_preds))
print ("accuracy: %.4f" % accuracy_score(y_test, y_preds_label))
实验结果
通过上面代码,跑出的结果如下(注:每次实验结果不一定相同):
Training log loss: 0.12161Validation log loss: 0.1868accuracy: 0.9778
上述内容就是如何进行FM算法原理分析与实践,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
特征
组合
数据
算法
样本
原理
模型
结果
实验
测试
分析
实践
稀疏
代码
内容
函数
技能
目标
知识
线性
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
山东标准软件开发要多少钱
土豆服务器介绍
数据库智能运维平台
数据库恢复fix
山西超算套料软件开发商
个人网络安全隐私泄露
前端创建的数据库在哪儿找
软件开发西安哪个技校好
软件开发好移民吗
软件开发检验公司
系统重装是否会丢失数据库
去日本做软件开发加班严重吗
硬件式邮件服务器
银行 软件开发 转 业务
网络技术与维修
试分析网络安全与网络发展的关系
双路机架服务器批发
网络安全威胁案例病毒
数据库数据更新流程
找软件开发的网址有哪些
字体软件开发
软件开发基础知识学习
ibm服务器带rd是什么意思
软件开发好移民吗
成都木星时空软件开发公司
共享情趣用品软件开发
杜仲哥互联网科技
网络技术运营部的证书
ios如何定位安卓软件开发
数据库保存后就不能修改