解决python 使用openpyxl读写大文件的坑

作者:valark 时间:2021-06-20 17:03:24 

由于需要处理xlsx类型的文件,我使用了openpyxl来处理,然而文件比较大,大约有60多MB。读文件的时候虽然慢了一点,但还是能够读出来,但是当我想写入时却报错了。

解决python 使用openpyxl读写大文件的坑

显示设备没有多余的空间,百度了一下,发现有不少关于openpyxl读写大文件的问题。总结来看,解决方案主要有以下两种,当然,我两种都用上了。

手动释放内存


del wb, ws
gc.collect()

这一招还算有用,在读完文件后可以看到内存占用明显下降了一点。

安装lxml

使用命令·pip install lxml安装依赖

这个依赖并非必须安装的依赖,但是可以使openpyxl流式处理数据。

总之使用了以上两种方案后,终于可以成功处理数据了。

补充:openpyxl读取大文件的若干问题

需要编写一个EXCEL文件对比工具

excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.

使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格编程中遇到若干问题

1、读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值

如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改

D:\Python34\Lib\site-packages\openpyxl\reader\style.py


164: format_code = builtin_formats.get(numFmtId,'General')

2、读取时内存占用过大

基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535

通过研究,代码进行了如下修改

1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.

2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用

3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).

4:虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.

通过代码修改,现在完成文件对比所用的内存通常在2G以内

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

来源:https://blog.csdn.net/valark/article/details/113207883

标签:python,openpyxl,读写文件
0
投稿

猜你喜欢

  • Python 绘图和可视化详细介绍

    2021-02-16 18:17:31
  • python重试装饰器的简单实现方法

    2022-07-15 12:54:10
  • Python unittest单元测试框架的使用

    2021-11-26 15:56:37
  • python开发一款翻译工具

    2022-01-19 07:28:43
  • TensorFlow2.0矩阵与向量的加减乘实例

    2023-12-30 13:21:00
  • python中NumPy的安装与基本操作

    2023-08-27 03:03:53
  • oracle 彻底删除方法

    2009-07-02 12:22:00
  • Dreamweaver定义本地站点

    2010-07-02 16:27:00
  • python实现复制文件到指定目录

    2022-09-25 20:53:12
  • Python中操作各种多媒体,视频、音频到图片的代码详解

    2021-09-25 21:47:49
  • Python压缩和解压缩zip文件

    2023-09-16 21:20:10
  • CSS 的优先规则

    2009-01-08 12:40:00
  • asp修改文件和文件夹的名字的代码

    2011-04-11 11:04:00
  • js substr、substring和slice使用说明小记

    2023-07-15 16:26:03
  • Oracle中大批量删除数据的方法

    2010-07-21 13:05:00
  • Python测试开源工具splinter安装与使用教程

    2022-07-22 01:56:36
  • python利用json和pyecharts画折线图实例代码

    2022-05-02 14:56:19
  • php从文件夹随机读取文件的方法

    2023-11-21 16:38:35
  • Python多进程的使用详情

    2022-09-21 23:55:58
  • 基于Python绘制520表白代码

    2021-06-10 08:14:44
  • asp之家 网络编程 m.aspxhome.com