python按列索引提取文件夹内所有excel指定列汇总(示例代码)

作者:用余生去守护 时间:2021-11-08 09:46:50 

前言

一、情景描述

情景一:
文件夹内有很多excel数据,包含的数据格式一样,我们需要提取每个文件中指定的几列数据汇总到一个文件中(因为是按列索引提取,所以列的顺序可以不一样)

python按列索引提取文件夹内所有excel指定列汇总(示例代码)

汇总后:

python按列索引提取文件夹内所有excel指定列汇总(示例代码)

二、python汇总

注意事项:

  • 文件所在文件夹内只能有运行文件.py,和需要汇总的文件,不能有其它文件夹,否则会出现运行错误;

  • 运行第二遍时需要将第一遍运行得到的结果文件res.xlsx删除,否则也会出现运行错误;

代码如下(示例):

# -*- coding:utf-8 –*-
import os
import pandas as pd

# 输入参数为excel表格所在目录
def to_one_excel(dir):
   dfs = []
   # 遍历文件目录,将所有表格表示为pandas中的DataFrame对象
   # for root_dir, sub_dir, files in os.walk(r'' + dir):     # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。
   for root_dir, sub_dir, files in os.walk(dir):     # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。
       for file in files:
           if file.endswith('xlsx'):
               # 构造绝对路径
               file_name = os.path.join(root_dir, file)
               # df = pd.read_excel(file_name)
               df_1 = list(pd.read_excel(file_name, nrows=1))  # 读取excel第一行数据并放进列表
               # excel第一行数据返回列表
               print(file_name)
               print(type(df_1))
               print(df_1)
               # 根据第一行列名获取每个文件中需要列的列索引,返回索引数值
               suo_yin_1 = df_1.index("人员")
               suo_yin_2 = df_1.index("效率")
               suo_yin_3 = df_1.index("成绩")
               suo_yin_4 = df_1.index("产量")
               suo_yin_5 = df_1.index("节点")
               suo_yin_6 = df_1.index("备注")
               # 读取文件内容  usecols=[1, 3, 4] 读取第1,3,4列
               df = pd.read_excel(file_name, usecols=[suo_yin_1, suo_yin_2, suo_yin_3, suo_yin_4, suo_yin_5, suo_yin_6], sheet_name='data')

# pf = pd.read_excel('xxx.xls', usecols=[1, 3, 4], sheet_name='data')
               # print(pf)
               # 追加一列数据,将每个文件的名字追加进该文件的数据中,确定每条数据属于哪个文件
               excel_name = file.replace(".xlsx", "")      # 提取每个excel文件的名称,去掉.xlsx后缀
               df["文件名"] = excel_name       # 新建列名为“文件名”,列数据为excel文件名
               dfs.append(df)      # 将新建文件名列追加进汇总excel中
   # 行合并
   df_concated = pd.concat(dfs)
   # 构造输出目录的绝对路径
   out_path = os.path.join(dir, 'res.xlsx')
   # 输出到excel表格中,并删除pandas默认的index列
   df_concated.to_excel(out_path, sheet_name='Sheet1', index=None)
# 调用并执行函数
to_one_excel(r'E:\py\python3.7\test\test96')

来源:https://blog.csdn.net/qq_45365214/article/details/123729128

标签:python,excel,指定列
0
投稿

猜你喜欢

  • oracle远程连接服务器数据库图文教程

    2023-07-12 22:22:37
  • PHP中__LINE__,__FILE__,__DIR__等常用魔术常量实例讲解

    2023-06-13 23:42:32
  • ChatGPT 中文调教指南总结

    2022-12-23 03:44:10
  • django和flask哪个值得研究学习

    2021-10-02 16:52:46
  • python 使用建议与技巧分享(四)

    2021-06-29 20:43:28
  • 深入解析JavaScript框架Backbone.js中的事件机制

    2024-05-03 15:58:59
  • PHP开发实现微信退款功能示例

    2023-06-30 09:10:25
  • sysbench的安装与使用 分享

    2024-01-17 08:41:19
  • 你喜欢篮球吗?Python实现篮球游戏

    2023-10-26 00:28:36
  • javascript计时器事件使用详解

    2024-05-08 09:38:58
  • 变态输入框——再谈校验包容性(一)

    2009-10-10 13:23:00
  • pip指定python位置安装软件包的方法

    2023-07-13 10:29:47
  • Golang 手写一个简单的并发任务 manager

    2024-02-21 00:15:31
  • 简述MySql四种事务隔离级别

    2024-01-18 12:52:11
  • Python基于Webhook实现github自动化部署

    2023-09-28 21:31:27
  • python3 爬取图片的实例代码

    2021-08-22 13:37:57
  • Python魔法方法 容器部方法详解

    2021-02-05 19:25:43
  • Python进程间通信之共享内存详解

    2022-01-06 05:47:10
  • Git远程仓库配置SSH的实现(以github为例)

    2023-10-21 18:16:00
  • Python如何读取csv文件时添加表头/列名

    2023-04-27 15:43:37
  • asp之家 网络编程 m.aspxhome.com