Pandas数据集的分块读取的实现

作者:文程公子 时间:2021-02-03 07:52:24 

所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。

一、直接用分块方式读取数据集文件(更直接)

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                    chunksize=10)

此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:

for r in reader:
   print(r)

遍历结果如下图所示:

Pandas数据集的分块读取的实现

这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。

二、先将数据集读取为可迭代对象,再分块读取(更灵活)

 这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                   iterator=True)

以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:

while True:
   try:
       print(reader.get_chunk(10))
   except StopIteration:
       break

来源:https://blog.csdn.net/weixin_45370422/article/details/125963245

标签:Pandas,数据集,分块读取
0
投稿

猜你喜欢

  • 企业网站FLASH引导页存在的意义

    2008-06-04 11:09:00
  • python实现登录密码重置简易操作代码

    2022-12-08 13:34:43
  • python中的信号通信 blinker的使用小结

    2023-07-31 10:05:10
  • python中的np.argmax() 返回最大值索引号

    2022-08-07 14:22:57
  • 利用Python抢回在蚂蚁森林逝去的能量(实现代码)

    2022-07-01 15:15:39
  • 朋友去一家游戏公司的机试题,被难住了

    2009-11-29 15:23:00
  • python爬虫爬取股票的北上资金持仓数据

    2023-11-18 20:44:56
  • Linux PHP连接MSSQL

    2011-06-02 12:01:00
  • Python单元测试模块doctest的具体使用

    2021-02-26 16:50:12
  • python tkiner实现 一个小小的图片翻页功能的示例代码

    2023-07-19 18:40:32
  • python中isdigit() isalpha()用于判断字符串的类型问题

    2023-05-02 18:52:48
  • Python中pillow知识点学习

    2023-11-26 05:27:01
  • 关于numpy中np.nonzero()函数用法的详解

    2023-01-06 12:29:34
  • vue学习笔记之动态组件和v-once指令简单示例

    2024-01-01 07:50:52
  • 分享一个超好用的php header下载函数

    2023-09-03 21:31:43
  • FusionCharts图表显示双Y轴双(多)曲线

    2023-08-22 17:55:38
  • MySQL数据库的授权原则

    2008-12-29 13:39:00
  • Pandas DataFrame操作数据增删查改

    2022-07-10 09:37:39
  • Python中lru_cache的使用和实现详解

    2022-04-22 10:48:28
  • ASP 精华源码收集(五年总结)第1/20页

    2011-04-07 11:15:00
  • asp之家 网络编程 m.aspxhome.com