浅谈keras2 predict和fit_generator的坑

作者:BYR_jiandong 时间:2021-05-13 16:30:36 

1、使用predict时,必须设置batch_size,否则效率奇低。

查看keras文档中,predict函数原型:

predict(self, x, batch_size=32, verbose=0)

说明:

只使用batch_size=32,也就是说每次将batch_size=32的数据通过PCI总线传到GPU,然后进行预测。在一些问题中,batch_size=32明显是非常小的。而通过PCI传数据是非常耗时的。

所以,使用的时候会发现预测数据时效率奇低,其原因就是batch_size太小了。

经验:

使用predict时,必须人为设置好batch_size,否则PCI总线之间的数据传输次数过多,性能会非常低下。

2、fit_generator

说明:keras 中 fit_generator参数steps_per_epoch已经改变含义了,目前的含义是一个epoch分成多少个batch_size。旧版的含义是一个epoch的样本数目。

如果说训练样本树N=1000,steps_per_epoch = 10,那么相当于一个batch_size=100,如果还是按照旧版来设置,那么相当于

batch_size = 1,会性能非常低。

经验:

必须明确fit_generator参数steps_per_epoch

补充知识:Keras:创建自己的generator(适用于model.fit_generator),解决内存问题

为什么要使用model.fit_generator?

在现实的机器学习中,训练一个model往往需要数量巨大的数据,如果使用fit进行数据训练,很有可能导致内存不够,无法进行训练。

fit_generator的定义如下:

fit_generator(generator, steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, validation_data=None, validation_steps=None, class_weight=None, max_queue_size=10, workers=1, use_multiprocessing=False, shuffle=True, initial_epoch=0)

其中各项的具体解释,请参考Keras中文文档

我们重点关注的是generator参数:

generator: 一个生成器,或者一个 Sequence (keras.utils.Sequence) 对象的实例, 以在使用多进程时避免数据的重复。 生成器的输出应该为以下之一:

一个 (inputs, targets) 元组

一个 (inputs, targets, sample_weights) 元组。

那么,问题来了,如何构建这个generator呢?有以下几种办法:

自己创建一个generator生成器

自己定义一个 Sequence (keras.utils.Sequence) 对象

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory来生成一个generator

1.自己创建一个generator生成器

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory 灵活度不高,只有当数据集满足一定格式(例如,按照分类文件夹存放)或者具备一定条件时,使用才使用才较为方便。

此时,自己创建一个generator就很重要了,关于python的generator是什么原理,怎么使用,就不加赘述,可以查看python的基本语法。

此处,我们用yield来返回数据组,标签组,从而使fit_generator可以调用我们的generator来成批处理数据。

具体实现如下:


 def myGenerator(batch_size):
   # loading data
   X_train,Y_train=load_data(...)

# data processing
   # ................

total_size=X_train.size
   #batch_size means how many data you want to train one step

while 1:
     for i in range(total_size//batch_size):
       yield x_train[i*batch_size:(i+1)*batch_size], y[i*batch_size:(i+1)*batch_size]
 return myGenerator

接着你可以调用该生成器:

self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size, epochs=epoch_num)

来源:https://blog.csdn.net/lujiandong1/article/details/73556163

标签:keras2,predict,fit,generator
0
投稿

猜你喜欢

  • vscode中配置jupyter的详细步骤(彻底解决Failed to start the Kernel问题)

    2022-06-21 06:56:26
  • pandas实现导出数据的四种方式

    2023-01-03 14:57:57
  • Python详细介绍模型封装部署流程

    2023-03-27 00:49:32
  • 从if else到switch case再到抽象

    2010-11-05 18:30:00
  • python使用Matplotlib绘制分段函数

    2022-04-17 16:07:17
  • python实现可视化动态CPU性能监控

    2023-08-08 10:23:52
  • Python内置函数——__import__ 的使用方法

    2022-07-18 21:02:18
  • 详解Python函数作用域的LEGB顺序

    2021-05-06 15:00:10
  • Python拼接字符串的7种方式详解

    2021-03-30 11:12:32
  • js Array的用法总结

    2024-04-25 13:08:26
  • 详解go-admin在线开发平台学习(安装、配置、启动)

    2023-08-26 15:27:31
  • 网页效果图设计之色彩索引

    2008-03-23 13:53:00
  • 基于Django的ModelForm组件(详解)

    2022-03-07 18:21:04
  • 一篇jQuery小教程

    2007-10-15 12:49:00
  • Mysql中的concat函数(拼接函数)详解

    2024-01-27 21:01:37
  • 小结下dom节点操作

    2011-03-08 10:33:00
  • Python注释、分支结构、循环结构、伪“选择结构”用法实例分析

    2021-01-15 14:45:25
  • 详解MySQL 8.0 之不可见索引

    2024-01-22 17:41:46
  • Python使用tkinter写一个本地密码管理器

    2022-09-19 13:05:53
  • Pandas中DataFrame的常用用法分享

    2022-08-10 01:17:49
  • asp之家 网络编程 m.aspxhome.com