Pytorch 中net.train 和 net.eval的使用说明

作者:Never-Giveup 时间:2021-11-15 11:40:37 

在训练模型时会在前面加上:


model.train()

在测试模型时在前面使用:


model.eval()

同时发现,如果不写这两个程序也可以运行,这是因为这两个方法是针对在网络训练和测试时采用不同方式的情况,比如Batch Normalization 和 Dropout。

训练时是正对每个min-batch的,但是在测试中往往是针对单张图片,即不存在min-batch的概念。

由于网络训练完毕后参数都是固定的,因此每个批次的均值和方差都是不变的,因此直接结算所有batch的均值和方差。

所有Batch Normalization的训练和测试时的操作不同

在训练中,每个隐层的神经元先乘概率P,然后在进行激活,在测试中,所有的神经元先进行激活,然后每个隐层神经元的输出乘P。

补充:Pytorch踩坑记录——model.eval()

最近在写代码时遇到一个问题,原本训练好的模型,加载进来进行inference准确率直接掉了5个点,尼玛,这简直不能忍啊~本菜鸡下意识地感知到我肯定又在哪里写了bug了~~~于是开始到处排查,从model load到data load,最终在一个被我封装好的module的犄角旮旯里找到了问题,于是顺便就在这里总结一下,避免以后再犯。

对于训练好的模型加载进来准确率和原先的不符,比较常见的有两方面的原因:

1)data

2)model.state_dict()

1) data

数据方面,检查前后两次加载的data有没有发生变化。首先检查 transforms.Normalize 使用的均值和方差是否和训练时相同;另外检查在这个过程中数据是否经过了存储形式的改变,这有可能会带来数据精度的变化导致一定的信息丢失。

比如我过用的其中一个数据集,原先将图片存储成向量形式,但其对应的是“png”格式的数据(后来在原始文件中发现了相应的描述。),而我进行了一次data-to-img操作,将向量转换成了“jpg”形式,这时加载进来便造成了掉点。

2)model.state_dict()

第一方面造成的掉点一般不会太严重,第二方面造成的掉点就比较严重了,一旦模型的参数加载错了,那就误差大了。

如果是参数没有正确加载进来则比较容易发现,这时准确率非常低,几乎等于瞎猜。

而我这次遇到的情况是,准确率并不是特别低,只掉了几个点,检查了多次,均显示模型参数已经成功加载了。后来仔细查看后发现在其中一次调用模型进行inference时,忘了写 ‘model.eval()',造成了模型的参数发生变化,再次调用则出现了掉点。

于是又回顾了一下model.eval()和model.train()的具体作用。如下:

model.train() 和 model.eval() 一般在模型训练和评价的时候会加上这两句,主要是针对由于model 在训练时和评价时 Batch

Normalization 和 Dropout 方法模式不同:

a) model.eval(),不启用 BatchNormalization 和 Dropout。此时pytorch会自动把BN和DropOut固定住,不会取平均,而是用训练好的值。不然的话,一旦test的batch_size过小,很容易就会因BN层导致模型performance损失较大;

b) model.train() :启用 BatchNormalization 和 Dropout。 在模型测试阶段使用model.train() 让model变成训练模式,此时 dropout和batch normalization的操作在训练q起到防止网络过拟合的问题。

因此,在使用PyTorch进行训练和测试时一定要记得把实例化的model指定train/eval。


model.eval()   vs   torch.no_grad()

虽然二者都是eval的时候使用,但其作用并不相同:

model.eval() 负责改变batchnorm、dropout的工作方式,如在eval()模式下,dropout是不工作的。 见下方代码:


 import torch
 import torch.nn as nn

drop = nn.Dropout()
 x = torch.ones(10)

# Train mode  
 drop.train()
 print(drop(x)) # tensor([2., 2., 0., 2., 2., 2., 2., 0., 0., 2.])  

# Eval mode  
 drop.eval()
 print(drop(x)) # tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

torch.no_grad() 负责关掉梯度计算,节省eval的时间。

只进行inference时,model.eval()是必须使用的,否则会影响结果准确性。 而torch.no_grad()并不是强制的,只影响运行效率。

来源:https://blog.csdn.net/qq_36653505/article/details/84728489

标签:Pytorch,net.train,net.eval
0
投稿

猜你喜欢

  • Javascript Worker子线程代码实例

    2024-04-17 09:46:16
  • 深入SQL Server 跨数据库查询的详解

    2024-01-25 13:25:42
  • AI与Python人工智能启发式搜索概念理解

    2021-08-05 03:56:28
  • pycharm部署、配置anaconda环境的教程

    2022-08-23 11:50:54
  • numpy.random模块用法总结

    2023-05-11 00:48:19
  • 解决pycharm运行时interpreter为空的问题

    2022-04-01 22:56:39
  • Google的用户体验设计原则

    2009-01-12 18:31:00
  • Yii2 批量插入、更新数据实例

    2024-05-22 10:01:47
  • Python docx库代码演示

    2021-12-11 12:18:02
  • js表单序列化判断空值的实例

    2024-04-22 13:01:15
  • 详解PHP结构型设计模式之桥接模式Bridge Pattern

    2023-05-25 06:58:55
  • Pycharm运行时总是跳出Python Console问题

    2023-06-22 11:40:34
  • Linux mysql-5.6如何实现重置root密码

    2024-01-27 16:48:29
  • Symfony2实现在controller中获取url的方法

    2023-11-17 17:30:03
  • 详解用python写网络爬虫-爬取新浪微博评论

    2021-09-30 22:23:11
  • Python实现批量识别图片文字并存为Excel

    2021-07-28 06:34:23
  • Python Http请求json解析库用法解析

    2021-11-20 14:05:45
  • mysql 按中文字段排序

    2024-01-14 18:04:19
  • Linux下彻底卸载mysql详解

    2024-01-13 11:31:50
  • 关于生成目录树结构的类

    2007-09-13 12:19:00
  • asp之家 网络编程 m.aspxhome.com