PyTorch梯度裁剪如何避免训练loss nan
发表于:2025-01-20 作者:千家信息网编辑
千家信息网最后更新 2025年01月20日,这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训
千家信息网最后更新 2025年01月20日PyTorch梯度裁剪如何避免训练loss nan
这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训练loss nan"这篇文章吧。
训练代码使用示例如下:
from torch.nn.utils import clip_grad_norm_outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()# clip the gradclip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()
其中,max_norm为梯度的最大范数,也是梯度裁剪时主要设置的参数。
备注:网上有同学提醒在(强化学习)使用了梯度裁剪之后训练时间会大大增加。目前在我的检测网络训练中暂时还没有碰到这个问题,以后遇到再来更新。
补充:pytorch训练过程中出现nan的排查思路
1、最常见的就是出现了除0或者log0这种
看看代码中在这种操作的时候有没有加一个很小的数,但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。
2、在optim.step()之前裁剪梯度
optim.zero_grad()loss.backward()nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)optim.step()
max_norm一般是1,3,5。
3、前面两条还不能解决nan的话
就按照下面的流程来判断。
...loss = model(input)# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作assert torch.isnan(loss).sum() == 0, print(loss)optim.zero_grad()loss.backward()# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nanassert torch.isnan(model.mu).sum() == 0, print(model.mu)optim.step()# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。assert torch.isnan(model.mu).sum() == 0, print(model.mu)assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)
以上是"PyTorch梯度裁剪如何避免训练loss nan"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
梯度
训练
学习
内容
参数
篇文章
过程
代码
数量
数量级
速率
问题
帮助
最大
同学
备注
小学
就是
常见
思路
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
运动宝无法同步qq数据库
网络设置中服务器没有响应
直连服务器管理口
搭建物联网服务器端
福建省网络安全教育平台入口
社会工程学数据库
律师网络安全吗
域名点进去显示无法连接服务器
网络安全运维存在的问题
架设DNS服务器的基本步骤
安徽智能软件开发要多少钱
网络技术的基础制度
中国香港超频服务器近期价格
软件开发个体户 命名
软件开发政府补助
旅业系统前台连不上数据库
我的世界租一个服务器多少钱
重庆ipfs存储服务器云主机
怎么把房间当成服务器玩
所有程序都要有服务器吗
我的是服务器下载
中美网络安全公司对比
宝可梦我的世界服务器ip
软件开发技术的特点
sql数据库图书管理
系统迁移后数据库还能用吗
服务器怎么设置每天定时重启
车辆测速管理系统服务器ip
旭旭宝宝首秀卡爆服务器
苏州湖畔网络技术