python pandas分割DataFrame中的字符串及元组的方法实现
作者:侯小啾 时间:2022-09-10 09:30:14
1.使用str.split()方法
可以使用pandas 内置的 str.split() 方法实现分割字符串类型的数据,并将分割结果写入DataFrame中,以表格形式呈现。
语法:
Series.str.split(pat=None, n=-1, expand=False)
其中,pat是字符串或正则表达式,
n是一个整数数字,默认为-1。为0或-1时即为最大次数的分割。其他数值因数值而定。
expand为布尔类型,表示分割后是否转换为DataFrame。默认为False表示不转换。
首先准备一组DataFrame数据:
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
address = ['重庆 重庆市 南岸区 ',
'江苏省 苏州市 吴江区 吴江经济技术开发区亨通路',
'江苏省 苏州市 园区 苏州市工业园区唯亭镇阳澄湖大道维纳阳光花园',
'重庆 重庆市 南岸区 长生桥镇茶园新区长电路',
'安徽省 滁州市 明光市 三界镇中心街10001号',
'山东省 潍坊市 寿光市 圣城街道潍坊科技学院',
'吉林省 长春市 二道区 东盛街道彩虹风景',
'福建省 厦门市 湖里区 江头街道厦门市湖里区祥店福满园小区',
'山西省 吕梁市 离石区 滨河街道山西省吕梁市离石区后瓦师巷',
'河南省 濮阳市 华龙区 中原路街道中原路与107国道交叉口东',
'广东省 深圳市 宝安区 松岗街道松岗镇潭头第二工业区',
'河北省 石家庄市 辛集市 辛集镇辛集市新皮革城7期125楼',
'广东省 深圳市 宝安区 松岗街道松岗镇潭头第二工业区',
'贵州省 贵阳市 花溪区 党武镇师范大学师大超市',
'广东省 深圳市 福田区 沙头街道上沙龙秋村五十巷',
'福建省 福州市 闽侯县 上街镇福州闽侯上街国宾大道',
'湖北省 鄂州市 鄂城区 西山街道江碧路和馨居',
'上海 上海市 松江区',
'山东省 青岛市 市北区',
'山西省 晋中市 灵石县',
'浙江省 杭州市 余杭区']
df = pd.DataFrame()
df['address'] = address
print(df)
原数据示例如下:
将address分割成不同的地理级别,结果生成一个DataFrame对象:
print("=======================================================================")
df1 = df['address'].str.split(' ', expand=True)
print(df1)
结果如下:
最后将结果放入原DataFrame中。
df['省'] = series[0]
df['市'] = series[1]
df['区'] = series[2]
df = df[['省', '市', '区']]
print(df)
2.使用join()与split()方法结合
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
address = ['重庆 重庆市 南岸区 ',
'江苏省 苏州市 吴江区 吴江经济技术开发区亨通路',
'江苏省 苏州市 园区 苏州市工业园区唯亭镇阳澄湖大道维纳阳光花园',
'重庆 重庆市 南岸区 长生桥镇茶园新区长电路',
'安徽省 滁州市 明光市 三界镇中心街10001号',
'山东省 潍坊市 寿光市 圣城街道潍坊科技学院',
'吉林省 长春市 二道区 东盛街道彩虹风景',
'福建省 厦门市 湖里区 江头街道厦门市湖里区祥店福满园小区',
'山西省 吕梁市 离石区 滨河街道山西省吕梁市离石区后瓦师巷',
'河南省 濮阳市 华龙区 中原路街道中原路与107国道交叉口东',
'广东省 深圳市 宝安区 松岗街道松岗镇潭头第二工业区',
'河北省 石家庄市 辛集市 辛集镇辛集市新皮革城7期125楼',
'广东省 深圳市 宝安区 松岗街道松岗镇潭头第二工业区',
'贵州省 贵阳市 花溪区 党武镇师范大学师大超市',
'广东省 深圳市 福田区 沙头街道上沙龙秋村五十巷',
'福建省 福州市 闽侯县 上街镇福州闽侯上街国宾大道',
'湖北省 鄂州市 鄂城区 西山街道江碧路和馨居',
'上海 上海市 松江区',
'山东省 青岛市 市北区',
'山西省 晋中市 灵石县',
'浙江省 杭州市 余杭区']
df = pd.DataFrame()
df['address'] = address
df = df.join(df['address'].str.split(' ', expand=True))
print(df)
运行结果同上。
3. 使用apply方法分割元组
使用apply方法,将某个元素类型为元组的列,将其元组中的元素拆分为不同的列。
import pandas as pd
df = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)]})
print(df)
df[['b1', 'b2']] = df['b'].apply(pd.Series)
print(df)
或者也可以这样写:
import pandas as pd
df = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)]})
print(df)
df = df.join(df['b'].apply(pd.Series))
print(df)
参考资源: python数据分析从入门到精通 明日科技编著 清华大学出版社
来源:https://skylarkprogramming.blog.csdn.net/article/details/123353821
标签:python,DataFrame,分割
0
投稿
猜你喜欢
mysql存储过程基础之遍历多表记录后插入第三方表中详解
2024-01-24 12:59:27
Python要如何实现列表排序的几种方法
2022-02-01 16:23:07
SqlServer 数据库 三大 范式
2024-01-15 06:58:55
python 实现的截屏工具
2023-05-15 00:20:39
小程序scroll-view组件实现滚动的示例代码
2024-05-11 09:31:42
MYSQL数据库教程:唯一编号
2009-02-27 15:27:00
PHP基于phpqrcode类库生成二维码过程解析
2023-11-17 19:06:35
Django的用户模块与权限系统的示例代码
2023-04-27 14:48:23
golang实践-第三方包为私有库的配置方案
2023-06-25 06:05:32
python3实现磁盘空间监控
2023-07-09 14:12:49
Python Scapy随心所欲研究TCP协议栈
2023-06-10 23:12:29
防止web项目中的SQL注入
2024-01-26 00:44:25
解决Mysql5.7.17在windows下安装启动时提示不成功问题
2024-01-16 07:39:14
SqlServer备份数据库的4种方式介绍
2024-01-17 09:58:15
Python 3中print函数的使用方法总结
2021-12-21 00:37:18
Golang单元测试与断言编写流程详解
2024-05-05 09:28:13
PyQt中实现自定义工具提示ToolTip的方法详解
2023-11-09 13:34:56
Python利用PyPDF2快速拆分PDF文档
2021-11-06 09:39:23
对Golang import 导入包语法详解
2024-02-20 19:10:28
Python贪心算法实例小结
2021-08-05 21:10:17