千家信息网

PyTorch梯度裁剪如何避免训练loss nan

发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训
千家信息网最后更新 2024年09月22日PyTorch梯度裁剪如何避免训练loss nan

这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训练loss nan"这篇文章吧。

训练代码使用示例如下:

from torch.nn.utils import clip_grad_norm_outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()# clip the gradclip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

其中,max_norm为梯度的最大范数,也是梯度裁剪时主要设置的参数。

备注:网上有同学提醒在(强化学习)使用了梯度裁剪之后训练时间会大大增加。目前在我的检测网络训练中暂时还没有碰到这个问题,以后遇到再来更新。

补充:pytorch训练过程中出现nan的排查思路

1、最常见的就是出现了除0或者log0这种

看看代码中在这种操作的时候有没有加一个很小的数,但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。

2、在optim.step()之前裁剪梯度

optim.zero_grad()loss.backward()nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)optim.step()

max_norm一般是1,3,5。

3、前面两条还不能解决nan的话

就按照下面的流程来判断。

...loss = model(input)# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作assert torch.isnan(loss).sum() == 0, print(loss)optim.zero_grad()loss.backward()# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nanassert torch.isnan(model.mu).sum() == 0, print(model.mu)optim.step()# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。assert torch.isnan(model.mu).sum() == 0, print(model.mu)assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)

以上是"PyTorch梯度裁剪如何避免训练loss nan"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

梯度 训练 学习 内容 参数 篇文章 过程 代码 数量 数量级 速率 问题 帮助 最大 同学 备注 小学 就是 常见 思路 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 专注网络安全可视化 东营职业计算机网络技术 计算机代理服务器什么意思 铁路网络安全检查总结 网络安全英文科技文 个体软件开发的经营范围 服务器定时自动重启 QUARTZ插件软件开发 制定网络安全法有哪些好处 软件开发主流的技术有哪些 软件开发工作的求职信 宝山区新时代软件开发成本 之涯网络技术差 oa服务器电脑配置推荐 表格查找一样的数据库 不通过服务器可以保存游戏吗 广西专业软件开发设施厂家现货 福州软件开发哪个公司比较好 共建网络安全共享网络文明通稿 discuz服务器配置 网络安全威胁和风险突出的表现 软件开发与维护实践报告 我的世界天灾惊变服务器通关 街道维护网络安全制度 jdbc链接数据库查询语句 经济数据库分析报告单怎么做 铜仁市公交数据库代码 网络安全股低估 如何配置网络技术团队 玉田辅助网络技术诚信合作
0