PyTorch梯度裁剪如何避免训练loss nan
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训
千家信息网最后更新 2024年09月22日PyTorch梯度裁剪如何避免训练loss nan
这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训练loss nan"这篇文章吧。
训练代码使用示例如下:
from torch.nn.utils import clip_grad_norm_outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()# clip the gradclip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()
其中,max_norm为梯度的最大范数,也是梯度裁剪时主要设置的参数。
备注:网上有同学提醒在(强化学习)使用了梯度裁剪之后训练时间会大大增加。目前在我的检测网络训练中暂时还没有碰到这个问题,以后遇到再来更新。
补充:pytorch训练过程中出现nan的排查思路
1、最常见的就是出现了除0或者log0这种
看看代码中在这种操作的时候有没有加一个很小的数,但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。
2、在optim.step()之前裁剪梯度
optim.zero_grad()loss.backward()nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)optim.step()
max_norm一般是1,3,5。
3、前面两条还不能解决nan的话
就按照下面的流程来判断。
...loss = model(input)# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作assert torch.isnan(loss).sum() == 0, print(loss)optim.zero_grad()loss.backward()# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nanassert torch.isnan(model.mu).sum() == 0, print(model.mu)optim.step()# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。assert torch.isnan(model.mu).sum() == 0, print(model.mu)assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)
以上是"PyTorch梯度裁剪如何避免训练loss nan"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
梯度
训练
学习
内容
参数
篇文章
过程
代码
数量
数量级
速率
问题
帮助
最大
同学
备注
小学
就是
常见
思路
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
DELL服务器不启动
网络安全和网络整治
小辉博客专注网络技术
网络安全重要性从日常生活
服务器与网络机柜一样吗
止泻药广告数据库
南通系统软件开发中心
服务器cpu 775
广西振企网络技术有限公司
乱接wifi的网络安全检讨书
苏州net软件开发机构
超级管理员服务器密码
服务器安装盘
飞书办公显示服务器异常
张禹艺术名家数据库
饥荒怎么增加服务器管理员
毛晶玥网络安全课视频
软件开发ip
计算机网络技术专业课配电脑吗
技校计算机网络技术专业就业
网络技术国三考试
网络安全小提案
互联网科技集团有限公司
远景能源软件开发中心
杭州仕佳网络技术有限公司带货
工业网关和服务器通信
cistrome数据库创始人
新野软件开发公司
菜谱网站数据库设计
江阴互联网智能科技产品供应