Python Pandas 如何shuffle(打乱)数据
作者:kingsam_ 时间:2023-04-22 23:17:16
在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。
应用情景:
我们有下面以个DataFrame
我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果:
实现方法:
最简单的方法就是采用pandas中自带的 sample这个方法。
假设df是这个DataFrame
df.sample(frac=1)
这样对可以对df进行shuffle。其中参数frac是要返回的比例,比如df中有10行数据,我只想返回其中的30%,那么frac=0.3。
有时候,我们可能需要打混后数据集的index(索引)还是按照正常的排序。我们只需要这样操作
df.sample(frac=1).reset_index(drop=True)
-------------------------------------分割线--------------------------------------------------------------
其实,sklearn(机器学习的库)中也有shuffle的方法。
from sklearn.utils import shuffle
df = shuffle(df)
另外,numpy库中也有进行shuffle的方法(不建议)
df.iloc[np.random.permutation(len(df))]
来源:https://blog.csdn.net/qq_22238533/article/details/70917102
标签:Pandas,shuffle,打乱
0
投稿
猜你喜欢
Python 编码Basic Auth使用方法简单实例
2023-06-13 22:29:50
详解Python yaml模块
2022-08-14 12:15:18
python包和文件夹有的区别点总结
2022-05-09 11:59:01
用Python实现web端用户登录和注册功能的教程
2021-03-03 07:49:09
python实现根据图标提取分类应用程序实例
2022-07-23 16:22:39
Wordpress 相册插件 NextGEN-Gallery 添加目录将中文转为拼音的解决办法
2023-09-04 23:12:41
MySQL学习笔记之数据定义表约束,分页方法总结
2024-01-13 13:46:38
封装html的select标签的js操作实例
2024-05-09 10:34:07
用Python读取几十万行文本数据
2023-10-13 21:56:04
Python基础之模块详解
2023-02-24 23:23:52
详解Vue 多级组件透传新方法provide/inject
2024-06-05 09:21:03
Python 使用元类type创建类对象常见应用详解
2023-09-15 23:07:57
mssqlserver恢复ldf文件数据的方法
2024-01-22 11:06:54
Python Dict找出value大于某值或key大于某值的所有项方式
2023-10-16 19:54:55
教你使用vue-autofit 一行代码搞定自适应可视化大屏
2024-05-09 09:05:53
Python中is与==的使用区别详解
2023-10-15 04:08:21
Mysql将一个表中的某一列数据复制到另一个表中某一列里的方法
2024-01-14 17:36:29
详解supervisor使用教程
2022-02-18 09:12:07
浏览器常用基本操作之python3+selenium4自动化测试(基础篇3)
2023-10-19 04:49:03
图文详解mysql中with...as用法
2024-01-27 20:52:43