如何使用python读取Excel指定范围并转为数组
作者:knighthood2001 发布时间:2023-06-13 15:21:10
前言
最近需要读取Excel中的内容,然后进行后续操作,对于这块知识,博主以前以为自己不会涉及到,但是现在一涉及到,第一步就错了,搞了好久。真的心累。因此写了这篇博客。
目的:
excel中存放着数据,如果要进行计算及其它操作,首先就要进行读取。
我们先来看一下python中能操作Excel的库对比(一共九个库):
可以发现,还是挺多的
这里使用的是xlrd库。
安装
这里首先就是导入这个包,
pip install xlrd==1.2.0
xlrd包版本最好是1.2.0,因为笔者使用2.多版本的xlrd时,代码出现了类似下面的报错,也就是说xlrd版本太高会导致无法支持读取xlsx后缀的excel。
xlrd.biffh.XLRDError: Excel xlsx file; not supported
大家可以去试试将excel另存,看看保存类型。
目前笔者使用的是Excel2019版本的,默认保存类型为xlsx。
如果你之前已经安装xlrd高版本或更低版本了,建议先卸载一下,重新安装。
pip uninstall xlrd
pip install xlrd==1.2.0
实例
初阶
一个excel中有如上数据,我们需要将其提取出来,方便python进行后续操作。
代码如下:
def extract1(file,index=0):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
all = []
for i in range(rows):
a = worksheet.row_values(i)[:]
all.append(a)
print(all)
cc = np.array(all)
print(cc)
return cc
file是文件的路径及名称,index就是当前sheet表的索引。 下图就是具体的索引。
当然也可以根据sheet表的名称。
如下面代码第一行按照的是索引方式,第二行按照的是sheet名称。大家可自行选择
worksheet = workbook.sheet_by_index(0)
worksheet = workbook.sheet_by_name("sheet1")
rows = worksheet.nrows
返回的是sheet表的行数,ncols则是列数
all = []
for i in range(rows):
a = worksheet.row_values(i)[:]
all.append(a)
首先定义一个空列表,然后遍历每行,将里面的数据写入列表中,
row_values()
是用来返回给定行中单元格值的切片。
最后将其转换成数组类型即可。(按要求来,大家也可以不换)
下图是结果:
换个高级的写法,用推导式写(浓缩才是精华)
def extract(file,index=0):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
c = tuple(worksheet.row_values(i)[:] for i in range(rows))
a = np.array(c)
print(a)
return a
代码行数瞬间缩短了。
最好调用一下函数即可
file = r'C:\Users\knighthood\OneDrive\桌面\11.xlsx'
extract1(file)
进阶1
要求:假如我excel只要图中框出来的区域。
以下为了看的较为简便,我使用推导式的代码
def confine_array(file,index=0):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
c = tuple(worksheet.row_values(i)[1:] for i in range(1, rows))
a = np.array(c)
print(a)
return a
如上,可以发现,代码变化之处就下面这一行。
c = tuple(worksheet.row_values(i)[1:] for i in range(1, rows))
一步步讲解:
①for i in range(1, rows)
首先对于后面的for循环,i控制的就是获取的行,更改其范围就会更改获取到的行、行数。
如果是上面说的(1,rows),则对应着获取第二行到最后一行,(0表示第一行)
②worksheet.row_values(i)[1:]
最后的[1:](本来的代码中是没有或者是[:])表示的是i行的元素从第2列(个)获取到最后一行(个)。
因此我们只需要更改这两处就可以获得不同的内容矩阵(如下)。
def flexible_array(file,index=0,row=1,col=1):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
c = tuple(worksheet.row_values(i)[col:] for i in range(row,rows))
a = np.array(c)
print(a)
return a
结果如下图
进阶2
要求:能不能更简化一点,根据我从哪个位置要数据,如第二行第二列开始,将这后面的数据进行读取。每次这样对来对去,容易出错,还是根据行列开始计算比较方便。
这里为了防止行列一样,我就多加了一列。
def flexible1_array(file,index=0,row=1,col=1):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
c = tuple(worksheet.row_values(i)[col-1:] for i in range(row-1,rows))
a = np.array(c)
print(a)
return a
代码也主要变化了这一行
c = tuple(worksheet.row_values(i)[col-1:] for i in range(row-1,rows))
这里笔者就不多解释了。
现在就可以根据需要的起始单元格所在的行列进行选取所要的内容。
进阶3
要求:不需要最后一列
这里的话,笔者就设置了最后需要的行和列作为结束的读取。
def flexible2_array(file,index=0,row=1,col=1,end_row=None,end_col=None):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
if end_row is None:
c = tuple(worksheet.row_values(i)[col-1:end_col] for i in range(row-1, rows))
else:
c = tuple(worksheet.row_values(i)[col - 1:end_col] for i in range(row - 1, end_row))
a = np.array(c)
print(a)
return a
上述代码意思是,如果不输入结束的行和列,读取到的是包含数据的行列,如果输入了行和列(或者其中一个),就读取相应的内容。由于end_row放在range()函数中,因此需要加个if判断。
结果如下:
此外,我还发现,end_col由于放在[]中,可输入负数(不懂的可以去看看python列表负索引)。
不过这里的-1,其实际是排除了最后一列,从你输入的行列到,你输入的结束行和倒数第二列。
有些人可能会觉得别扭(比如我,更喜欢-1表示从起始列到最后一列,-2表示从起始列到倒数第二列)
def flexible3_array(file,index=0,row=1,col=1,end_row=None,end_col=None):
workbook = xlrd.open_workbook(file)
worksheet = workbook.sheet_by_index(index)
rows = worksheet.nrows
if end_row is None:
c = tuple(worksheet.row_values(i)[col-1:end_col if end_col > 0 else end_col+1] for i in range(row-1, rows))
else:
c = tuple(worksheet.row_values(i)[col-1:end_col if end_col > 0 else end_col+1] for i in range(row - 1, end_row))
a = np.array(c)
print(a)
return a
这里,代码中将判断end_col是否为负,使用了if-else写在一行。减少了很多代码判断量,使看起来更简洁。
这里看个人喜好是否使用这个方法。
还有一个end_col参数使用负数的原因是,end_row由于在excel中对应的是行,其用的是数字表示,而excel中列用字母表示,因此如果当数据列数太多的时候(如下图),去数列还是挺麻烦的
来源:https://blog.csdn.net/knighthood2001/article/details/127534635


猜你喜欢
- 简介本文分享的实例代码主要通过python语言实现批量替换页眉页脚的操作功能,具体如下。代码#!/usr/bin/env python# -
- 读写 JSON 数据问题你想读写 JSON(JavaScript Object Notation) 编码格式的数据。解决方案json模块提供
- 发一个数字拼图游戏,有点小疑问前几天写得,其中一段代码还要感谢“簡簡單單愛妳”的提示,不过我还是不太明白, ,有点笨。 $(&qu
- 若对于同一数据库实例中的两个数据库进行同步则直接对数据库表创建Trigger。SQL Server 2005的联机帮助:Trigger on
- 代码如下: function HandleTabKey(evt) {
- 数据库分类早期数据库模型有三种,分别为层次式数据库、网络式数据库和关系型数据库。而在当今的互联网中,通常把数据库分为两类,即关系型数据库和非
- 多数据插入只要写一次insert,可以插入多条数据基本语法:insert into 表名 [(字段列表)] values (值列表), (值
- 前言日常开发使用到的命令行工具大都支持如下特性:文档自动生成(如 -h --help)多级子命令(如 docker exec -it)支持参
- 1.首先在index.html引入高德地图的秘钥。如图:注意:如果使用关键字搜索功能要加上 plugin=AMap.Autocomplete
- 问题最近在工作中遇到一个问题,在安装python软件包的时候,经常会遇类似这样一个问题。比如对于ipython,机子本身安装的版本是1.2.
- 参数数量及其作用该函数共有十一个参数,常用的有:名称 name变量规格 shape变量类型 dtype变量初始化方式 initializer
- 形态学处理,除了最基本的膨胀、腐蚀、开/闭运算、黑/白帽处理外,还有一些更高级的运用,如凸包,连通区域标记,删除小块区域等。1、凸包凸包是指
- 本文实例讲述了Python3实现将文件树中所有文件和子目录归档到tar压缩文件的方法。分享给大家供大家参考。具体实现方法如下:# 这里将一个
- 前言我们经常需要将大量数据保存起来以备后续使用,数据库是一个很好的解决方案。在众多数据库中,MySQL数据库算是入门比较简单、语法比较简单,
- 1.第一种方法<table><tr><td>当前时间:</td><td id=&quo
- 一、TensorFLow完整样例在MNIST数据集上,搭建一个简单神经网络结构,一个包含ReLU单元的非线性化处理的两层神经网络。在训练神经
- 就服务器端处理而言,ASP是产生动态Web网页的一种相对较新的技术。动态页意味着什么呢?先暂时不考虑客户端相关功能上的进展,也不讨论客户端脚
- 1.调整内存 sp_configure 'show advanced options',1 GO RECONFIGURE G
- cv的xdm可以直接翻到 需求 和 代码 用,想看中间的分析就老实往下看吧little 背景最近在做毕设,需要将几百篇整体结构差不多的文章中
- 1. 关于箱线图 及 plt.boxplot()方法箱线图又称箱形图,有的地方也可以叫盒须图。使用箱线图的好处是可以以一种相对稳定的方式描述