对pandas写入读取h5文件的方法详解

作者:hzau_yang 时间:2021-01-10 09:11:18 

1、引言

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore


import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()

####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()

3、读取文件

使用函数:pd.read_hdf

参数:文件名,key


data=pd.read_hdf('/data/stock/test_c4.h5',key='data')

来源:https://blog.csdn.net/hzau_yang/article/details/78485879

标签:pandas,h5
0
投稿

猜你喜欢

  • python在新的图片窗口显示图片(图像)的方法

    2021-11-17 00:38:18
  • python检查字符串是否是正确ISBN的方法

    2022-05-10 14:54:01
  • MySQL的存储过程写法和Cursor的使用

    2008-12-03 15:55:00
  • python标准库os库的函数介绍

    2022-02-26 09:57:15
  • python实现根据月份和日期得到星座的方法

    2023-02-02 01:05:51
  • Vue Router 实现动态路由和常见问题及解决方法

    2024-05-05 09:09:43
  • 如何修改Editplus让图片自适应界面大小

    2007-09-26 12:37:00
  • Python OpenCV实现识别信用卡号教程详解

    2021-08-12 03:50:27
  • Mysql中复制详细解析

    2024-01-13 20:46:25
  • python pandas.DataFrame.loc函数使用详解

    2023-10-04 07:01:58
  • 基于python神经卷积网络的人脸识别

    2023-11-03 17:37:17
  • asp截取字符串的两种应用

    2009-08-19 17:11:00
  • python实现二维码扫码自动登录淘宝

    2022-09-22 07:18:02
  • Python使用sorted排序的方法小结

    2022-09-03 21:11:23
  • 详细解析Python当中的数据类型和变量

    2023-01-18 23:27:07
  • Python中处理字符串之islower()方法的使用简介

    2021-03-26 16:40:35
  • 批量替换sqlserver数据库挂马字段并防范sql注入攻击的代码

    2024-01-28 08:03:47
  • Python爬虫实现抓取京东店铺信息及下载图片功能示例

    2022-11-26 21:02:44
  • Navicat把csv数据导入mysql

    2024-01-18 12:40:26
  • django框架模板语言使用方法详解

    2021-11-10 12:00:36
  • asp之家 网络编程 m.aspxhome.com