DQN与PG多角度实例比较分析
发表于:2024-12-12 作者:千家信息网编辑
千家信息网最后更新 2024年12月12日,今天小编给大家分享一下DQN与PG多角度实例比较分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起
千家信息网最后更新 2024年12月12日DQN与PG多角度实例比较分析
今天小编给大家分享一下DQN与PG多角度实例比较分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。
首先是原理上的对比,强化学习研究的目标是训练出一个对应于具体任务的好模型,这两个训练策略的方法是不同的。DQN基于值的方法,简单说就是先学出个值函数 ,然后通过值函数确定策略。而PG基于策略的方法则是,直接通过一个目标函数去训练出一个策略
接下来是网络模型上的不同,在MATLAB中DQN方法需要的模型是这样的
每一步的state和action一起作为输入进入网络,最后输出的是下一步action的值,和模型接受的动作对应,比如迷宫环境中的表示向上的1,rlDQNAgent模型把1施加给环境
再看PG方法的模型
只要state作为输入,经过网络的运算后输出的是下一步的action,和模型的actionInfo对应,rlPGAgent分析后取出需要执行的动作再和环境交互
最后看的是训练过程,同样的简单平衡维持环境,DQN训练时reward变化是这样的
而PG训练需要更多次
这个对比只是直观指出不同,可能PG方法并不适合这样的环境,这里主要记录的是两个方法的输入输出,在下次建立模型的时候可以参考:
DQN的输入是state和action一起,输出对应的是action的确切值
PG的输入是state,输出对应的是env的ActionInfo
以上就是"DQN与PG多角度实例比较分析"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。
方法
模型
训练
环境
输入
输出
不同
知识
策略
篇文章
分析
函数
网络
多角度
实例
多角
两个
内容
动作
就是
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
手机远程读取电脑数据库
幸运盲盒app软件开发
数据库连接 填写域名
我的世界服务器跑酷地图推荐
陕西金欣魔方网络技术
方舟服务器找龙
华三6700服务器开盖
文明重启怎么卖服务器
成都茂禄网络技术有限公司
ps4怎么看什么服务器
苏州齐装网络技术公司
郑州市软件开发的公司有多少
sql断开数据库连接
在菲律宾做网络技术维护
北京服务器对应的地域
网络安全工程师30岁学太晚吗
网络安全应急响应类型
药品广告数据库宏鹰制药
景德镇政务软件开发费用
长宁区参考软件开发怎么样
局域网服务器怎么设置路由器
计算机数据库多表间的查询
网络安全纵深防御外部数据
广东超算套料软件开发商
沉余数据库
黑龙江熙然软件开发公司
什么是服务器ip地址
网络安全教育主题班会收获
长宁区参考软件开发怎么样
辽宁统一软件开发服务参考价格