对pandas写入读取h5文件的方法详解

作者:hzau_yang 时间:2021-01-10 09:11:18 

1、引言

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore


import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()

####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()

3、读取文件

使用函数:pd.read_hdf

参数:文件名,key


data=pd.read_hdf('/data/stock/test_c4.h5',key='data')

来源:https://blog.csdn.net/hzau_yang/article/details/78485879

标签:pandas,h5
0
投稿

猜你喜欢

  • Flume监听oracle表增量的步骤详解

    2023-07-20 00:39:32
  • Django使用中间件解决前后端同源策略问题

    2022-09-05 10:33:32
  • python 使用csv模块读写csv格式文件的示例

    2021-04-24 15:58:28
  • Python中关于 *args与**args的用法及说明

    2022-04-01 08:24:38
  • Pytorch中如何调用forward()函数

    2023-06-14 21:00:24
  • Python中的list.sort()方法和函数sorted(list)

    2021-07-29 17:02:23
  • Python机器学习应用之支持向量机的分类预测篇

    2023-08-29 20:42:55
  • 基于opencv实现简单画板功能

    2022-08-25 14:41:41
  • Pycharm Plugins加载失败问题解决方案

    2023-12-28 22:28:49
  • python基础教程之csv文件的写入与读取

    2021-06-18 21:21:00
  • windows下安装php的memcache模块的方法

    2023-11-20 05:47:38
  • JSP安全开发之XSS漏洞详解

    2023-06-13 13:07:24
  • python中bottle使用实例代码

    2023-07-03 14:21:15
  • asp如何写入超长的字符串?

    2010-06-09 18:53:00
  • 详细讲解如何删除Access数据库中的空记录

    2008-11-28 14:58:00
  • python变量不能以数字打头详解

    2022-06-30 15:33:48
  • asp 网站静态化函数代码html

    2011-03-16 11:21:00
  • python中os.path.join()函数实例用法

    2021-08-10 04:57:58
  • 关于pyinstaller生成.exe程序报错:缺少.ini文件的分析

    2023-12-25 13:43:22
  • python学生信息管理系统

    2022-10-16 11:43:04
  • asp之家 网络编程 m.aspxhome.com