解决Pytorch内存溢出,Ubuntu进程killed的问题

作者:Coding呆呆 时间:2023-08-31 22:12:16 

pytorch显存越来越多的一个原因


optimizer.zero_grad()
loss.backward()
optimizer.step()
train_loss += loss

参考了别人的代码发现那句loss一般是这样写


loss_sum += loss.data[0]

这是因为输出的loss的数据类型是Variable。而PyTorch的动态图机制就是通过Variable来构建图。主要是使用Variable计算的时候,会记录下新产生的Variable的运算符号,在反向传播求导的时候进行使用。如果这里直接将loss加起来,系统会认为这里也是计算图的一部分,也就是说网络会一直延伸变大那么消耗的显存也就越来越大。

用Tensor计算要写成:


train_loss += loss.item()

correct_total += torch.eq(predict, label_batch).sum().item()
train_loss += loss.item()

当需要将模型中变量提取出来参与计算时,需要使用** .item()**

补充:linux下运行pytorch程序显示“killed”或者“已杀死”

这是由pytorch对于内存不足的反应,确切说,是Linux内核对pytorch程序占用太多内存的反应。Linux内核一旦因为内存资源不足而生气的时候,会使用OOM killer将占用内存最多的进程杀掉。

这种情况下,pytorch的python程序根本就来不及显示相关的内存日志,直接在呼喊出killed这一个简短有力的词语后,就game over了。如果不提前掌握这个背景的话,你可真是会手足无措啊。

既然我们确定了是内存不足导致的问题(dmesg也能明确的显示出kernel把占了近10个GB的python进程给kill了),

那我们的解决方案就有2个:

第一个是加大内存,将我的x99平台的内存从16GB增加到64GB;这个方案先放弃了,因为内存条涨价太猛,我买不起了;

第二个是增加swap分区,当然性能会降低,但不需要额外增加成本。所以Gemfield今天的选择就是第二个方案。

1、先禁止掉swap功能


sudo swapoff /swapfile

这个命令执行之后,如果你用free命令查看的话会发现swap分区的大小变为了0。

2、增加 /swapfile的大小


sudo dd if=/dev/zero of=/swapfile bs=1M count=30720 oflag=append conv=notrunc

这个命令会在现有的/swapfile后面追加30GB,加上之前的2GB的swap分区,现在共有32个GB的swap分区了。如果按照固态硬盘128GB有300多块钱来算的话,这个命令花了七八十块钱呢。

3、设置这个文件为swap分区的挂载点:


sudo mkswap /swapfile

4、再次启用swap


sudo swapon /swapfile

来源:https://blog.csdn.net/qq_35899290/article/details/103549280

标签:Pytorch,内存溢出,Ubuntu,killed
0
投稿

猜你喜欢

  • Javascript基础教程之比较操作符

    2024-04-10 16:15:05
  • 实际应用:MySQL5存储过程编写

    2008-11-11 12:25:00
  • Mac Homebrew安装的MySQL无法远程登录的解决

    2024-01-14 12:12:56
  • ASP+JAVAScript:复杂表单的动态生成与验证

    2007-10-06 21:51:00
  • Python实现读取csv文件并进行排序

    2021-06-27 08:37:59
  • python爬虫实战之最简单的网页爬虫教程

    2022-02-06 17:03:36
  • Python依赖包迁移到断网环境操作

    2021-06-27 06:58:29
  • 使用Numpy打乱数组或打乱矩阵行

    2022-09-18 09:40:10
  • 对pytorch网络层结构的数组化详解

    2023-09-02 12:10:09
  • 基于Python实现拆分和合并GIF动态图

    2021-09-09 18:05:57
  • 基于PyQt5完成pdf转word功能

    2022-05-17 13:06:47
  • MySQL版本低了不支持两个时间戳类型的值解决方法

    2024-01-18 14:13:21
  • Python中字典创建、遍历、添加等实用操作技巧合集

    2021-04-02 08:22:12
  • 彻底解决MySql在UTF8字符集下乱码问题

    2011-06-02 12:02:00
  • golang日志框架之logrus的使用

    2024-04-25 15:17:45
  • 配置python连接oracle读取excel数据写入数据库的操作流程

    2024-01-14 02:30:31
  • python使用百度或高德地图获取地理位置并转换

    2021-10-26 16:28:55
  • python使用socket进行简单网络连接的方法

    2021-05-16 22:53:03
  • SQL Server中Update的用法

    2008-12-29 13:57:00
  • 分别用两个函数实现的菜单

    2024-04-19 10:05:36
  • asp之家 网络编程 m.aspxhome.com