PyTorch梯度裁剪如何避免训练loss nan
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训
千家信息网最后更新 2024年09月22日PyTorch梯度裁剪如何避免训练loss nan
这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训练loss nan"这篇文章吧。
训练代码使用示例如下:
from torch.nn.utils import clip_grad_norm_outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()# clip the gradclip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()
其中,max_norm为梯度的最大范数,也是梯度裁剪时主要设置的参数。
备注:网上有同学提醒在(强化学习)使用了梯度裁剪之后训练时间会大大增加。目前在我的检测网络训练中暂时还没有碰到这个问题,以后遇到再来更新。
补充:pytorch训练过程中出现nan的排查思路
1、最常见的就是出现了除0或者log0这种
看看代码中在这种操作的时候有没有加一个很小的数,但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。
2、在optim.step()之前裁剪梯度
optim.zero_grad()loss.backward()nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)optim.step()
max_norm一般是1,3,5。
3、前面两条还不能解决nan的话
就按照下面的流程来判断。
...loss = model(input)# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作assert torch.isnan(loss).sum() == 0, print(loss)optim.zero_grad()loss.backward()# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nanassert torch.isnan(model.mu).sum() == 0, print(model.mu)optim.step()# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。assert torch.isnan(model.mu).sum() == 0, print(model.mu)assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)
以上是"PyTorch梯度裁剪如何避免训练loss nan"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
梯度
训练
学习
内容
参数
篇文章
过程
代码
数量
数量级
速率
问题
帮助
最大
同学
备注
小学
就是
常见
思路
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
专注网络安全可视化
东营职业计算机网络技术
计算机代理服务器什么意思
铁路网络安全检查总结
网络安全英文科技文
个体软件开发的经营范围
服务器定时自动重启
QUARTZ插件软件开发
制定网络安全法有哪些好处
软件开发主流的技术有哪些
软件开发工作的求职信
宝山区新时代软件开发成本
之涯网络技术差
oa服务器电脑配置推荐
表格查找一样的数据库
不通过服务器可以保存游戏吗
广西专业软件开发设施厂家现货
福州软件开发哪个公司比较好
共建网络安全共享网络文明通稿
discuz服务器配置
网络安全威胁和风险突出的表现
软件开发与维护实践报告
我的世界天灾惊变服务器通关
街道维护网络安全制度
jdbc链接数据库查询语句
经济数据库分析报告单怎么做
铜仁市公交数据库代码
网络安全股低估
如何配置网络技术团队
玉田辅助网络技术诚信合作