python的去重以及数据合并的用法说明

作者：Just_do_it_2018 时间：2023-01-12 07:12:57　

python去重及数据合并

drop_dupicates

参数含义：

subset：即表示要去重指定参考的列
keep : {‘first’, ‘last’, False}, default ‘first’

inplace:boolean, default False, 直接在原来的数据上修改还是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比较数据中的全部列都相同时才能去除，则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()

merge

首先关于连接，从SQL中的可以得知，连接主要分为外连接和内连接：

内连接

内连接是指在两个数据表中，根据其指定合并的列，找到其交集，也就是既在df1中出现，也在df2中出现的数据

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系，因为merge默认的就是内连接

假设如果在df1和df2中的指定要合并的列的列名不一致的话，则需要显式指定根据哪一列进行合并

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列，但是两个的本质是一样的，都是内连接

外连接

外连接可以分为三种，全外连接、左连接和右连接。

全外连接就是保留两个表中指定合并的列关键字的并集，然后在左右两个表中找到相对应的数据进行填充，没有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右连接是保留右表中指定列的所有关键字，然后去左表中找到指定列对应的数据进行补充，没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左连接是保留左表中指定列的所有关键字，然后去右表中找到指定列对应的数据进行补充，没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

python去重脚本

可以用来去除字典、漏洞数量等

使用方法，将要去重的部分保存成为csv格式，并命名为all.csv，直接执行后，会在当前目录下生成qc.csv的文件！

#coding:utf-8

ciku=open(r'all.csv','r') #打开需要去重文件
xieci=open(r'qc.csv','w') #打开处理后存放的文件
cikus=ciku.readlines()
list2 = {}.fromkeys(cikus).keys() #列表去重方法，将列表数据当作字典的键写入字典，依据字典键不可重复的特性去重
i=1
for line in list2:
   if line[0]!=',':
       # print line[0:-1].decode('utf-8').encode('gbk')
       # print u"writing"+i
       i+=1
       xieci.writelines(line)
xieci.close()

来源：https://blog.csdn.net/qq_32618817/article/details/80430292

标签：python,去重,数据合并

投稿

python的去重以及数据合并的用法说明

python去重及数据合并

drop_dupicates

merge

python去重脚本

猜你喜欢

Layui 带多选框表格监听事件以及按钮自动点击写法实例

asp如何做一个看他爱不爱你的小测验？

良好体验，必须是全方位的

sqlserver数据库移动数据库路径的脚本示例

互联网产品设计师职业生涯

vue.js使用v-model实现表单元素(input) 双向数据绑定功能示例

PHP中soap的用法实例

SQL Server误区30日谈第1天正在运行的事务在服务器故障转移后继续执行

python 详解如何使用GPU大幅提高效率

python使用turtle库绘制时钟

MySQL临时表的使用方法详解

图文详解Mysql使用left join写查询语句执行很慢问题的解决

ORACLE常见错误代码的分析与解决（二）

python爬取一组小姐姐图片实例

Vue子组件内的props对象参数配置方法

使用PHP生成二维码的两种方法(带logo图像)

python可变对象,不可变对象详解

用python实现将数组元素按从小到大的顺序排列方法

Mysql事务的隔离级别(脏读+幻读+可重复读)

python字符串的多行输出的实例详解

python的去重以及数据合并的用法说明

python去重及数据合并

drop_dupicates

merge

python去重脚本

猜你喜欢

Layui 带多选框表格监听事件以及按钮自动点击写法实例

asp如何做一个看他爱不爱你的小测验？

良好体验，必须是全方位的

sqlserver数据库移动数据库路径的脚本示例

互联网产品设计师职业生涯

vue.js使用v-model实现表单元素(input) 双向数据绑定功能示例

PHP中soap的用法实例

SQL Server误区30日谈 第1天 正在运行的事务在服务器故障转移后继续执行

python 详解如何使用GPU大幅提高效率

python使用turtle库绘制时钟

MySQL临时表的使用方法详解

图文详解Mysql使用left join写查询语句执行很慢问题的解决

ORACLE常见错误代码的分析与解决（二）

python爬取一组小姐姐图片实例

Vue子组件内的props对象参数配置方法

使用PHP生成二维码的两种方法(带logo图像)

python可变对象,不可变对象详解

用python实现将数组元素按从小到大的顺序排列方法

Mysql事务的隔离级别(脏读+幻读+可重复读)

python字符串的多行输出的实例详解

SQL Server误区30日谈第1天正在运行的事务在服务器故障转移后继续执行