pandas中的数据去重处理的实现方法
作者:我是小蚂蚁 时间:2022-05-13 23:28:50
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
first:标记重复,True除了第一次出现。
last:标记重复,True除了最后一次出现。
错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]
# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0 False
1 True
2 True
3 True
4 False
Name: Seqno, dtype: bool
'''
# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0 0.0
4 1.0
Name: Seqno, dtype: float64
'''
# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
Price Seqno Symbol time
0 1623.0 0.0 APPL 1473411962
4 1649.0 1.0 APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
Price Seqno Symbol time
3 1623.0 0.0 APPL 1473411963
4 1649.0 1.0 APPL 1473411963
'''
pandas 去除重复行
DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )
subset : 指定列,默认情况下使用所有列
keep : {'first','last',False},默认'first'
first
:删除重复项保留第一次出现的。last
:删除重复项保留最后一次出现的。false:删除所有重复项。
inplace : 布尔值,默认为False 是否删除重复项或返回副本
栗子:
来源:https://blog.csdn.net/missyougoon/article/details/83926840
标签:Pandas,清除重复数据
0
投稿
猜你喜欢
MySQL与PHP的基础与应用专题之数据查询
2023-11-10 10:09:55
java正则表达式应用的实例代码
2022-09-15 20:56:48
发一段鼠标掠过表格行颜色改变的代码
2010-07-02 12:59:00
树莓派升级python的具体步骤
2023-08-04 00:28:49
numpy数组广播的机制
2023-08-15 11:41:31
Python Socket传输文件示例
2023-10-18 17:19:00
Python的Tornado Web框架深入解析
2021-11-28 03:14:51
go语言beego框架分页器操作及接口频率限制示例
2024-04-25 15:15:13
Python爬虫:Request Payload和Form Data的简单区别说明
2021-11-14 14:01:24
基于np.arange与np.linspace细微区别(数据溢出问题)
2021-08-29 23:46:25
Python常用小技巧总结
2023-02-27 17:50:16
Python pip安装第三方库实现过程解析
2022-01-04 02:17:31
禁止拷贝网页内容的js代码
2024-04-25 13:07:50
go类型转换及与C的类型转换方式
2024-04-28 09:18:38
python ip正则式
2022-02-13 22:13:02
简单介绍MySQL中索引的使用方法
2024-01-15 07:04:50
SQL2005 四个排名函数(row_number、rank、dense_rank和ntile)的比较
2024-01-18 02:47:08
解决Python安装时报缺少DLL问题【两种解决方法】
2023-12-27 01:49:12
在PyCharm中三步完成PyPy解释器的配置的方法
2021-02-20 04:12:17
107条javascript(js)常用小技巧
2007-10-30 12:40:00