Pandas数据集的分块读取的实现
作者:文程公子 时间:2021-02-03 07:52:24
所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。
一、直接用分块方式读取数据集文件(更直接)
分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:
reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
chunksize=10)
此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:
for r in reader:
print(r)
遍历结果如下图所示:
这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。
二、先将数据集读取为可迭代对象,再分块读取(更灵活)
这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:
reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
iterator=True)
以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:
while True:
try:
print(reader.get_chunk(10))
except StopIteration:
break
来源:https://blog.csdn.net/weixin_45370422/article/details/125963245
标签:Pandas,数据集,分块读取
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
企业网站FLASH引导页存在的意义
2008-06-04 11:09:00
python实现登录密码重置简易操作代码
2022-12-08 13:34:43
python中的信号通信 blinker的使用小结
2023-07-31 10:05:10
![](https://img.aspxhome.com/file/2023/2/104862_0s.jpg)
python中的np.argmax() 返回最大值索引号
2022-08-07 14:22:57
![](https://img.aspxhome.com/file/2023/0/67860_0s.png)
利用Python抢回在蚂蚁森林逝去的能量(实现代码)
2022-07-01 15:15:39
![](https://img.aspxhome.com/file/2023/6/90646_0s.jpg)
朋友去一家游戏公司的机试题,被难住了
2009-11-29 15:23:00
python爬虫爬取股票的北上资金持仓数据
2023-11-18 20:44:56
![](https://img.aspxhome.com/file/2023/4/82524_0s.webp)
Linux PHP连接MSSQL
2011-06-02 12:01:00
Python单元测试模块doctest的具体使用
2021-02-26 16:50:12
python tkiner实现 一个小小的图片翻页功能的示例代码
2023-07-19 18:40:32
![](https://img.aspxhome.com/file/2023/7/83657_0s.png)
python中isdigit() isalpha()用于判断字符串的类型问题
2023-05-02 18:52:48
Python中pillow知识点学习
2023-11-26 05:27:01
关于numpy中np.nonzero()函数用法的详解
2023-01-06 12:29:34
vue学习笔记之动态组件和v-once指令简单示例
2024-01-01 07:50:52
![](https://img.aspxhome.com/file/2023/5/82745_0s.png)
分享一个超好用的php header下载函数
2023-09-03 21:31:43
FusionCharts图表显示双Y轴双(多)曲线
2023-08-22 17:55:38
![](https://img.aspxhome.com/file/2023/9/56199_0s.png)
MySQL数据库的授权原则
2008-12-29 13:39:00
Pandas DataFrame操作数据增删查改
2022-07-10 09:37:39
Python中lru_cache的使用和实现详解
2022-04-22 10:48:28
ASP 精华源码收集(五年总结)第1/20页
2011-04-07 11:15:00