导航：首页 > 开发技术 >

PyTorch中eval和no_grad有什么区别

发表于：2025-02-23 作者：千家信息网编辑

千家信息网最后更新 2025年02月23日，这篇文章主要介绍了PyTorch中eval和no_grad有什么区别，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。首先这两者有着本质上

千家信息网最后更新 2025年02月23日PyTorch中eval和no_grad有什么区别

这篇文章主要介绍了PyTorch中eval和no_grad有什么区别，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

首先这两者有着本质上区别

model.eval()是用来告知model内的各个layer采取eval模式工作。这个操作主要是应对诸如dropout和batchnorm这些在训练模式下需要采取不同操作的特殊layer。训练和测试的时候都可以开启。

torch.no_grad()则是告知自动求导引擎不要进行求导操作。这个操作的意义在于加速计算、节约内存。但是由于没有gradient，也就没有办法进行backward。所以只能在测试的时候开启。

所以在evaluate的时候，需要同时使用两者。

model = ...dataset = ...loss_fun = ...# traininglr=0.001model.train()for x,y in dataset: model.zero_grad() p = model(x) l = loss_fun(p, y) l.backward() for p in model.parameters():  p.data -= lr*p.grad # evaluatingsum_loss = 0.0model.eval()with torch.no_grad(): for x,y in dataset:  p = model(x)  l = loss_fun(p, y)  sum_loss += lprint('total loss:', sum_loss)

另外no_grad还可以作为函数是修饰符来用，从而简化代码。

def train(model, dataset, loss_fun, lr=0.001): model.train() for x,y in dataset:  model.zero_grad()  p = model(x)  l = loss_fun(p, y)  l.backward()  for p in model.parameters():   p.data -= lr*p.grad @torch.no_grad()def test(model, dataset, loss_fun): sum_loss = 0.0 model.eval() for x,y in dataset:  p = model(x)  l = loss_fun(p, y)  sum_loss += l return sum_loss# main block:model = ...dataset = ...loss_fun = ...# trainingtrain()# testsum_loss = test()print('total loss:', sum_loss)

补充：pytorch中model.train、model.eval以及torch.no_grad的用法

1、model.train()

启用 BatchNormalization 和 Dropout

model.train() 让model变成训练模式，此时 dropout和batch normalization的操作在训练起到防止网络过拟合的问题

2、model.eval()

不启用 BatchNormalization 和 Dropout

model.eval()，pytorch会自动把BN和DropOut固定住，而用训练好的值。不然的话，一旦test的batch_size过小，很容易就会被BN层导致所生成图片颜色失真极大

训练完train样本后，生成的模型model要用来测试样本。在model(test)之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有batch normalization层所带来的的性质。

对于在训练和测试时为什么要这样做，可以从下面两段话理解：

在训练的时候, 会计算一个batch内的mean 和var，但是因为是小batch小batch的训练的，所以会采用加权或者动量的形式来将每个batch的 mean和var来累加起来，也就是说再算当前的batch的时候，其实当前的权重只是占了0.1, 之前所有训练过的占了0.9的权重，这样做的好处是不至于因为某一个batch太过奇葩而导致的训练不稳定。

好，现在假设训练完成了, 那么在整个训练集上面也得到了一个最终的"mean 和var", BN层里面的参数也学习完了(如果指定学习的话),而现在需要测试了，测试的时候往往会一张图一张图的去测，这时候没有batch而言了，对单独一个数据做 mean和var是没有意义的, 那么怎么办，实际上在测试的时候BN里面用的mean和var就是训练结束后的mean_final 和 val_final. 也可说是在测试的时候BN就是一个变换。所以在用pytorch的时候要注意这一点，在训练之前要有model.train() 来告诉网络现在开启了训练模式，在eval的时候要用"model.eval()", 用来告诉网络现在要进入测试模式了.因为这两种模式下BN的作用是不同的。