python生成器generator:深度学习读取batch图片的操作

作者:Rookiekk 时间:2022-07-31 08:43:06 

在深度学习中训练模型的过程中读取图片数据,如果将图片数据全部读入内存是不现实的,所以有必要使用生成器来读取数据。

通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。

所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。

创建generator有多种方法,第一种方法很简单

只要把一个列表生成式的[]改成(),就创建了一个generator:


>>> L = [x * x for x in range(10)]
>>> L
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
>>> g = (x * x for x in range(10))
>>> g
<generator object <genexpr> at 0x1022ef630>

list中的元素可以直接打印出来 ,generator要一个一个打印出来,

可以通过next()函数获得generator的下一个返回值:

>>> next(g)
0
>>> next(g)
1
>>> next(g)
4
>>> next(g)
9
>>> next(g)
16

generator保存的是算法,每次调用next(g),就计算出g的下一个元素的值,直到计算到最后一个元素,没有更多的元素时,抛出StopIteration的错误。

上面这种不断调用next(g)实在是太变态了

正确的方法是使用for循环,因为generator也是可迭代对象:


>>> g = (x * x for x in range(10))
>>> for n in g:
...     print(n)

著名的斐波拉契数列(Fibonacci),除第一个和第二个数外,任意一个数都可由前两个数相加得到:

1, 1, 2, 3, 5, 8, 13, 21, 34, ...

斐波拉契数列用列表生成式写不出来

但是,用函数把它打印出来却很容易:


def fib(max):
   n, a, b = 0, 0, 1
   while n < max:
       print(b)
       a, b = b, a + b
       n = n + 1
   return 'done'

仔细观察,可以看出,fib函数实际上是定义了斐波拉契数列的推算规则,可以从第一个元素开始,推算出后续任意的元素,这种逻辑其实非常类似generator。

也就是说,上面的函数和generator仅一步之遥。要把fib函数变成generator,只需要把print(b)改为yield b就可以了:


def fib(max):
   n, a, b = 0, 0, 1
   while n < max:
       yield b
       a, b = b, a + b
       n = n + 1
   return 'done'

这就是定义generator的另一种方法。如果一个函数定义中包含yield关键字,那么这个函数就不再是一个普通函数,而是一个generator:


>>> f = fib(6)
>>> f
<generator object fib at 0x104feaaa0>

这里,最难理解的就是generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行,遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。

在循环过程中不断调用yield,就会不断中断。当然要给循环设置一个条件来退出循环,不然就会产生一个无限数列出来。

同样的,把函数改成generator后,我们基本上从来不会用next()来获取下一个返回值,而是直接使用for循环来迭代:


>>> for n in fib(6):
...     print(n)
...

最后在读取图片的实际应用中的代码如下:


def train_data(train_file,batch_size,resize_shape):
   datas, labels = read_data(train_file)
   num_batch = len(datas)//batch_size
   for i in range(num_batch):
       imgs = []
       train_datas = datas[batch_size*i:batch_size*(i+1)]
       train_lables = labels[batch_size*i:batch_size*(i+1)]
       for img_path in train_datas:
           img = cv2.imread(img_path)
           img = cv2.resize(img,resize_shape)
           img = img/255 #归一化处理
           imgs.append(img)
       yield np.array(imgs),np.array(train_lables)

补充:深度学习算法--fit_generator()函数使用

如果我们数据量很大,那么是不可能将所有数据载入内存的,必将导致内存泄漏,

这时候我们可以用fit_generator函数来进行训练


from keras.datasets import imdb
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras import layers
import numpy as np
import random
from sklearn.metrics import f1_score, accuracy_score

max_features = 100
maxlen = 50
batch_size = 320
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
x_train = pad_sequences(x_train, maxlen=maxlen)
x_test = pad_sequences(x_test, maxlen=maxlen)

def generator():
   while 1:
       row = np.random.randint(0, len(x_train), size=batch_size)
       x = np.zeros((batch_size, x_train.shape[-1]))
       y = np.zeros((batch_size,))
       x = x_train[row]
       y = y_train[row]
       yield x, y

# generator()
model = Sequential()
model.add(layers.Embedding(max_features, 32, input_length=maxlen))
model.add(layers.GRU(64, return_sequences=True))
model.add(layers.GRU(32))
# model.add(layers.Flatten())
# model.add(layers.Dense(32,activation='relu'))

model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
print(model.summary())

# history = model.fit(x_train, y_train, epochs=1,batch_size=32, validation_split=0.2)
# Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便,但是如果我们数据量很大,
# 那么是不可能将所有数据载入内存的,必将导致内存泄漏,这时候我们可以用fit_generator函数来进行训练。
# fit_generator函数必须传入一个生成器,我们的训练数据也是通过生成器产生的
history = model.fit_generator(generator(), epochs=1, steps_per_epoch=len(x_train) // (batch_size))

print(model.evaluate(x_test, y_test))
y = model.predict_classes(x_test)
print(accuracy_score(y_test, y))

来源:https://blog.csdn.net/qq_18888869/article/details/83106460

标签:python,生成器,generator,batch
0
投稿

猜你喜欢

  • pandas中字典和dataFrame的相互转换

    2023-04-25 17:15:44
  • Python函数之zip函数的介绍与实际应用

    2022-06-02 00:52:51
  • Go语言中结构体方法副本传参与指针传参的区别介绍

    2024-05-05 09:29:45
  • 最具创意的广告牌全集

    2007-09-21 19:54:00
  • python实现两张图片拼接为一张图片并保存

    2023-01-26 17:56:52
  • JavaScript基础知识学习笔记

    2024-05-13 10:35:15
  • Centos 6.4源码安装mysql-5.6.28.tar.gz教程

    2024-01-25 09:39:58
  • 微信跳一跳python自动代码解读1.0

    2022-11-30 05:31:49
  • Pycharm设置去除显示的波浪线方法

    2022-06-29 16:04:59
  • 一句Sql把纵向表转为横向表,并分别分组求平均和总平均值

    2024-01-22 19:30:37
  • Go语言实现简单的一个静态WEB服务器

    2024-04-28 09:12:56
  • 使用pip下载时提示"You are using pip version 8.1.1, however version 22.1 is available."错误解决

    2023-08-02 18:04:49
  • 基于python+opencv调用电脑摄像头实现实时人脸眼睛以及微笑识别

    2023-07-08 23:31:14
  • FireFox浏览器使用Javascript上传大文件

    2023-11-17 09:49:27
  • 如何将anaconda安装配置的mmdetection环境离线拷贝到另一台电脑

    2022-12-16 00:48:47
  • Python向日志输出中添加上下文信息

    2021-01-09 15:04:42
  • Pytorch技巧:DataLoader的collate_fn参数使用详解

    2023-12-11 00:20:48
  • Go语言常见哈希函数的使用

    2024-02-04 16:09:23
  • Python异常处理与反射相关问题总结

    2022-02-09 18:20:32
  • Python通过websocket与js客户端通信示例分析

    2021-03-23 08:35:49
  • asp之家 网络编程 m.aspxhome.com