对pandas写入读取h5文件的方法详解
作者:hzau_yang 时间:2021-01-10 09:11:18
1、引言
通过参考相关博客对hdf5格式简要介绍。
hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。
另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。
2、写入文件
使用函数:pd.HDFStore
import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()
####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()
3、读取文件
使用函数:pd.read_hdf
参数:文件名,key
data=pd.read_hdf('/data/stock/test_c4.h5',key='data')
来源:https://blog.csdn.net/hzau_yang/article/details/78485879
标签:pandas,h5
0
投稿
猜你喜欢
python在新的图片窗口显示图片(图像)的方法
2021-11-17 00:38:18
python检查字符串是否是正确ISBN的方法
2022-05-10 14:54:01
MySQL的存储过程写法和Cursor的使用
2008-12-03 15:55:00
python标准库os库的函数介绍
2022-02-26 09:57:15
python实现根据月份和日期得到星座的方法
2023-02-02 01:05:51
Vue Router 实现动态路由和常见问题及解决方法
2024-05-05 09:09:43
如何修改Editplus让图片自适应界面大小
2007-09-26 12:37:00
Python OpenCV实现识别信用卡号教程详解
2021-08-12 03:50:27
Mysql中复制详细解析
2024-01-13 20:46:25
python pandas.DataFrame.loc函数使用详解
2023-10-04 07:01:58
基于python神经卷积网络的人脸识别
2023-11-03 17:37:17
asp截取字符串的两种应用
2009-08-19 17:11:00
python实现二维码扫码自动登录淘宝
2022-09-22 07:18:02
Python使用sorted排序的方法小结
2022-09-03 21:11:23
详细解析Python当中的数据类型和变量
2023-01-18 23:27:07
Python中处理字符串之islower()方法的使用简介
2021-03-26 16:40:35
批量替换sqlserver数据库挂马字段并防范sql注入攻击的代码
2024-01-28 08:03:47
Python爬虫实现抓取京东店铺信息及下载图片功能示例
2022-11-26 21:02:44
Navicat把csv数据导入mysql
2024-01-18 12:40:26
django框架模板语言使用方法详解
2021-11-10 12:00:36