基于Python实现对比Exce的工具

作者:小管呀 时间:2022-12-04 17:44:44 

目的:设计一个应用GUI用于对比两个Excel文件

思路

1.参数

  • 同一个excel文件两个sheet页其中一个ODS(老数据),一个DWH(新数据)

  • 生成对比文件

  • 设计两个主键 输入主键1 输入主键2

(默认新旧文件列名一致)

2.效果

  • 生成的文件

  • 数据量一样、取每个字段不一致的数据前10

  • 数据量不一样、取两边不一样的数据前10、排除不一样的数据、每个字段不一致的数据前10

3.实现

  • 循环对比组合列(主键+对比列)

  • pandas处理差异数据、openpyxl 处理生成的sheet的数据格式. (先生成数据,然后调整格式)

配置

import pandas as pd
from openpyxl import load_workbook
#选择文件路径
path=r"C:\Users\小管同学\Desktop\Migration_Data_Compari\对比文件.xls" #input("选择文件路径:")
TargetPath=r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\目标文件\对比结果.xlsx"
DATA_ODS=pd.read_excel(r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\对比文件.xls",sheet_name="ODS")
DATA_DWH=pd.read_excel(r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\对比文件.xls",sheet_name="DWH")
#选择主键
Primarykey="员工编号"#input("选择主键1:")
Primarykey
# 员工编号

一、数据量

输出表格1–数据量

def write_to_excel_DataVolume(Data,TargetPath): # cor_df 为要保存的 dataframe
   writer = pd.ExcelWriter(TargetPath, engine='xlsxwriter') # 这里用
   Data.to_excel(writer,sheet_name='Sheet1', encoding='utf8', header=False, startcol=0, startrow=2) # 把dataframe的数据从第2行开始
   workbook  = writer.book

format1 = workbook.add_format({ # 先把样式打包,然后之后赋值即可
       'bold': True, # 字体加粗
       'text_wrap': True, # 是否自动换行
       'valign': 'bottom',  #垂直对齐方式
       'align': 'center', # 水平对齐方式
       'fg_color': '#C5D9F1', # 单元格背景颜色
       'border': 1,# 边框
   })    
   writer_sheet = writer.sheets['Sheet1']
   # 设置宽度
   writer_sheet.set_column("A:I", 16)
   writer_sheet.set_column('C:C',30)
   writer_sheet.merge_range(0,0,0,2,'对比结果',format1)
   writer_sheet.merge_range(4,2,4,0,'数据量差异',format1)
   writer_sheet.write(1,0,'',format1)
   writer_sheet.write(1,1,'ODS',format1)
   writer_sheet.write(1,2,'DWH',format1)
   writer.save()
   writer.close()
DataFrame_DataVolume=pd.DataFrame([[DATA_ODS.shape[0]],[DATA_DWH.shape[0]]]).T
DataFrame_DataVolume.columns =["ODS","DWH"]
DataFrame_DataVolume.index=["数据量"]
DataFrame_DataVolume
#writeFileDataVolume(DataFrame_DataVolume,TargetPath)
write_to_excel_DataVolume(DataFrame_DataVolume,TargetPath)

基于Python实现对比Exce的工具

输出表格2–数据量差异合同

if DATA_ODS.shape[0]==DATA_DWH.shape[0]:
   pass
else:

DATA_ODS_Primarykey=pd.DataFrame(DATA_ODS[Primarykey])
   DATA_DWH_Primarykey=pd.DataFrame(DATA_DWH[Primarykey])
   df_union = pd.concat([DATA_ODS_Primarykey,DATA_DWH_Primarykey])
   # 实现1
   df_diff_ODS = df_union.append(DATA_ODS_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
   df_diff_DWH = df_union.append(DATA_DWH_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
   #DWH多的合同
   df_diff_ODS
   #DWH少的合同
   df_diff_DWH
   df_diff_DWH_Data=[]
   df_diff_ODS_Data=[]
   for i in df_diff_ODS.head(10).values.tolist():
       for n in i:
           df_diff_ODS_Data.append(n)

for i in df_diff_DWH.head(10).values.tolist():
           df_diff_DWH_Data.append(n)
   while True:
       if len(df_diff_DWH_Data)>len(df_diff_ODS_Data):
           df_diff_ODS_Data.append("-")
       elif len(df_diff_DWH_Data)< len(df_diff_ODS_Data):
           df_diff_DWH_Data.append("-")
       elif len(df_diff_DWH_Data)== len(df_diff_ODS_Data):
           break
   DataFrame_DataVolume_Count_result=pd.DataFrame(df_diff_DWH_Data,df_diff_ODS_Data).reset_index()
   DataFrame_DataVolume_Count_result.columns=['DWH多的合同','DWH少的的合同']
   DataFrame_DataVolume_Count_result=DataFrame_DataVolume_Count_result.reset_index()
   DataFrame_DataVolume_Count_result.columns=['序号','DWH多的合同','DWH少的的合同']
DataFrame_DataVolume_Count_result
from openpyxl import load_workbook

def write_to_excel_Count_result(Data,TargetPath):
   df_Old = pd.DataFrame(pd.read_excel(TargetPath)) #读取原数据文件和表
   writer = pd.ExcelWriter(TargetPath,engine='openpyxl')
   book=load_workbook(TargetPath)
   writer.book = book
   writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
   df_rows = df_Old.shape[0] #获取原数据的行数
   Data.to_excel(writer,startrow=df_rows+1, index=False,startcol=0,header=True)#将数据写入excel中的aa表,从第一个空行开始写
   writer.save()#保存
write_to_excel_Count_result(DataFrame_DataVolume_Count_result,TargetPath)

基于Python实现对比Exce的工具

来源:https://blog.csdn.net/weixin_44553044/article/details/124003598

标签:Python,对比,Excel
0
投稿

猜你喜欢

  • Python完全识别验证码自动登录实例详解

    2023-12-17 03:58:14
  • vue监听路由变化的几种方式小结

    2024-05-21 10:28:41
  • Mysql join连接查询的语法与示例

    2024-01-15 07:34:48
  • Frontpage轻松下载网页或站点

    2007-10-22 13:14:00
  • Delphi 本地路径的创建、清空本地指定文件夹下的文件

    2023-06-23 19:49:20
  • python简单分割文件的方法

    2021-08-09 10:32:33
  • javascript for-in有序遍历json数据并探讨各个浏览器差异

    2024-05-25 15:18:17
  • 解密新型SQL Server无文件持久化恶意程序的问题

    2024-01-17 08:34:12
  • 在python中使用[[v]*n]*n遇到的坑及解决

    2022-02-03 10:31:35
  • 新手必备之MySQL msi版本下载安装图文详细教程

    2024-01-26 04:04:05
  • 3个比较好用的asp检查函数

    2007-09-24 13:25:00
  • 手把手教你Python抓取数据并可视化

    2022-01-08 02:11:55
  • 对numpy中shape的深入理解

    2023-12-09 03:43:41
  • pyqt5 获取显示器的分辨率的方法

    2023-10-25 09:51:36
  • python 递归深度优先搜索与广度优先搜索算法模拟实现

    2022-10-03 12:51:59
  • mysql巡检脚本(必看篇)

    2024-01-22 07:24:54
  • Ubuntu安装Go语言运行环境

    2024-03-09 11:06:15
  • vue实现图片懒加载的方法分析

    2024-04-27 16:10:29
  • Python骚操作完美实现短视频伪原创

    2023-09-18 08:16:55
  • numpy实现神经网络反向传播算法的步骤

    2021-02-11 10:54:34
  • asp之家 网络编程 m.aspxhome.com