python excel多行合并的方法
作者:py3study 发布时间:2021-09-25 22:36:29
标签:python,excel,合并
一、概述
现有一个wenda1.xlsx文件,内容如下:
需要将faq记录合并为一行,效果如下:
注意:faq记录,每一行用||来拼接。
二、多行转换一行
新建test1.py,内容如下:
# !/usr/bin/python3
# -*- coding: utf-8 -*-
import xlrd
# 打开excel文件,创建一个workbook对象
rbook = xlrd.open_workbook('wenda1.xlsx')
# sheets方法返回对象列表,[<xlrd.sheet.Sheet object at 0x103f147f0>]
rbook.sheets()
# xls默认有3个工作簿,Sheet1,Sheet2,Sheet3
rsheet = rbook.sheet_by_index(0) # 取第一个工作簿
faq_tmp_dict = {} # FAQ临时字典
faq_formal_list = [] # FAQ正式列表
first_category_tag = "" # 一级分类标识
index = 0 # 索引
#循环工作簿的所有行
for row in rsheet.get_rows():
index +=1
first_category_row = row[0] # 1级分类所在的列
first_category_value = first_category_row.value # 1级分类的值
if first_category_value != '1级分类': # 排除第一行,这些都是列名
if first_category_value: # 当1级分类的值不为空时
# 更新一级分类标识,用#连接
first_category_tag = "%s#%s"%(first_category_value,index)
faq_like_column = row[1] # FAQ相似句所在的列
faq_like_value = faq_like_column.value # FAQ相似句的值
# 更新临时字典,不存在默认值为空字典,否则追加到列表中
faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
else:
# 当1级分类的值为空时
faq_like_column = row[1] # FAQ相似句所在的列
faq_like_value = faq_like_column.value
faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
print(faq_tmp_dict)
# 处理临时字典
for i in faq_tmp_dict:
tmp_dict = {}
# 一级分类,切割#号,取第一个
first_category = i.split('#')[0]
# print("first_category",first_category)
# faq所有记录,将faq列表转换为一行,用逗号拼接
faq_like_all = "||".join(faq_tmp_dict[i])
# print("faq_merge",faq_all)
tmp_dict['first_category'] = first_category
tmp_dict['faq_like_all'] = faq_like_all
faq_formal_list.append(tmp_dict)
print(faq_formal_list)
执行输出:
{'闲聊#2': ['不在吗?', '你好在吗?', '你在不在', '有人在么。', '你好?', '在么?说话啊', '客户在不在?'], '闲聊#9': ['你好', '客服你好', '你好,客服']}
[{'first_category': '闲聊', 'faq_like_all': '不在吗?||你好在吗?||你在不在||有人在么。||你好?||在么?说话啊||客户在不在?'}, {'first_category': '闲聊', 'faq_like_all': '你好||客服你好||你好,客服'}]
从上面输出内容,可以看出。将多行合并为一行,并且将faq记录写入到一个字典里面了。接下来就可以写入到新表格了。
三、写入新表格
完整代码如下:
# !/usr/bin/python3
# -*- coding: utf-8 -*-
import xlrd
# 打开excel文件,创建一个workbook对象
rbook = xlrd.open_workbook('wenda1.xlsx')
# sheets方法返回对象列表,[<xlrd.sheet.Sheet object at 0x103f147f0>]
rbook.sheets()
# xls默认有3个工作簿,Sheet1,Sheet2,Sheet3
rsheet = rbook.sheet_by_index(0) # 取第一个工作簿
faq_tmp_dict = {} # FAQ临时字典
faq_formal_list = [] # FAQ正式列表
first_category_tag = "" # 一级分类标识
index = 0 # 索引
#循环工作簿的所有行
for row in rsheet.get_rows():
index +=1
first_category_row = row[0] # 1级分类所在的列
first_category_value = first_category_row.value # 1级分类的值
if first_category_value != '1级分类': # 排除第一行,这些都是列名
if first_category_value: # 当1级分类的值不为空时
# 更新一级分类标识,用#连接
first_category_tag = "%s#%s"%(first_category_value,index)
faq_like_column = row[1] # FAQ相似句所在的列
faq_like_value = faq_like_column.value # FAQ相似句的值
# 更新临时字典,不存在默认值为空字典,否则追加到列表中
faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
else:
# 当1级分类的值为空时
faq_like_column = row[1] # FAQ相似句所在的列
faq_like_value = faq_like_column.value
faq_tmp_dict.setdefault(first_category_tag, []).append(faq_like_value)
print(faq_tmp_dict)
# 处理临时字典
for i in faq_tmp_dict:
tmp_dict = {}
# 一级分类,切割#号,取第一个
first_category = i.split('#')[0]
# print("first_category",first_category)
# faq所有记录,将faq列表转换为一行,用逗号拼接
faq_like_all = "||".join(faq_tmp_dict[i])
# print("faq_merge",faq_all)
tmp_dict['first_category'] = first_category
tmp_dict['faq_like_all'] = faq_like_all
faq_formal_list.append(tmp_dict)
print(faq_formal_list)
import xlwt
import json
f = xlwt.Workbook()
sheet1 = f.add_sheet('Sheet1', cell_overwrite_ok=True)
row0 = ["1级分类", "faq记录"]
# 写第一行
for i in range(0, len(row0)):
sheet1.write(0, i, row0[i])
# # 加载json文件
# with open("tj.json", 'r') as load_f:
# load_dict = json.load(load_f) # 反序列化文件
#
num = 0 # 计数器
max_length = 0 # 最大长度
for i in faq_formal_list:
num+=1 # 自增1
faq_col = sheet1.col(1) # faq记录所在的列
length = len(i['faq_like_all']) # 计算长度
# print("长度",length)
# 更新最大长度
if max_length < length:
max_length = length
# 设置表格宽度
faq_col.width = max_length * 20* 20
# 写入库名
sheet1.write(num, 0, i['first_category'])
# faq_like_str = "||".join(i['faq_like_all'])
sheet1.write(num, 1, i['faq_like_all'])
# 保存到表格
f.save('test1.xls')
执行代码,它会生成一个test1.xlsx。
打开文件,效果如下:
来源:https://cloud.tencent.com/developer/article/1754021


猜你喜欢
- 源代码:# dict1 是 字典 , 用来对应相应元素的下标,我们将文件转成列表,对应的也就是文件的下标,通过下标来找文件元素dict1 =
- 本文实例为大家分享了python批量下载抖音视频的具体代码,供大家参考,具体内容如下知识储备:博主是在Pycharm下进行的 文件夹:dou
- 1、存储过程基本语法: create procedure sp_name() begin ...... end; 2、如何调用: call
- 绑定的值与规则指定的值一定要相同-------第一步:<el-form :model="ruleForm" :ru
- 这样写 <select id="search"> <option>baidu</optio
- 本文实例讲述了GO语言实现简单的目录复制功能。分享给大家供大家参考。具体实现方法如下:创建一个独立的 goroutine 遍历文件,主进程负
- BinLogBinLog是记录所有数据库表结构变更(例如create、alter table)以及表数据修改(insert、update、d
- innewDropList = [9,10,11,12,22,50,51,60,61]newDB = newDB[newDB['gr
- 详情查看下面的代码:如果被识别就要添加一个cookie如果没有被识别的话就要一个user—agent就好了。如果出现乱码就设置编码格式为ut
- 写在前面题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少。了解网站的反爬机制一般
- python 根据正则表达式提取指定的内容正则表达式是极其强大的,利用正则表达式来提取想要的内容是很方便的事。 下面演
- 如下所示:dic = dict()dic['a'] = 1dic['b'] = 2dic['c
- 本文实例讲述了Java读取文件及基于正则表达式的获取电话号码功能。分享给大家供大家参考,具体如下:1、正则表达式正则表达式,又称 正规表示法
- 本文实例讲述了Python实现获取磁盘剩余空间的2种方法。分享给大家供大家参考,具体如下:方法1:import ctypesimport o
- 在GIS中,栅格属性里有关于栅格自身的信息,背景(nodata value)对于识别一张图像的边界像元尤为重要,我们目的只要把每行每列中的第
- 上篇文章给大家介绍了Python爬虫实现百度翻译功能过程详解Python爬虫学习之翻译小程序 感兴趣的朋友点击查看。今天给大家介
- 多个字段模糊查询, 括号中的下划线是双下划线,双下划线前是字段名,双下划线后可以是icontains或contains,区别是是否大小写敏感
- 前言本文主要给大家介绍了关于python中reload(module)用法的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细
- 跨域当我们遇到请求后台接口遇到 Access-Control-Allow-Origin 时,那说明跨域了。跨域是因为浏览器的同源策略所导致,
- 1.生成器# 一边循环一边计算的机制,称为生成器:generator;# 创建generator方法:# 1.把一个列表生成式的[]改成()