python pandas模糊匹配读取Excel后获取指定指标的操作

作者：D_grey 时间：2022-07-24 07:48:32　

1.首先读取Excel文件

数据代表了各个城市店铺的装修和配置费用，要统计出装修和配置项的总费用并进行加和计算；

2.pandas实现过程

import pandas as pd
#1.读取数据
df = pd.read_excel(r'./data/pfee.xlsx')
print(df)

cols = list(df.columns)
print(cols)

#2.获取含有装修和配置字段的数据
zx_lists=[]
pz_lists=[]
for name in cols:
if '装修' in name:
zx_lists.append(name)
elif '配置' in name:
pz_lists.append(name)
print(zx_lists)
print(pz_lists)

#3.对装修和配置项费用进行求和计算
df['装修-求和'] =df[zx_lists].apply(lambda x:x.sum(),axis=1)
df['配置-求和'] = df[pz_lists].apply(lambda x:x.sum(),axis=1)
print(df)

补充：pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

1.pandas dataframe

匹配一个很简单,批量匹配如下

df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次

pyspark dataframe 中模糊匹配有两种方式

2.spark dataframe api, filter rlike 联合使用

df1=df.filter("uri rlike
'com.tencent.tmgp.sgame|％E8％80％85％E8％8D％A3％E8％80％80_|android.ugc.live|\
％e7％88f％e8％a7％86％e9％a2％91|％E7％％8F％E8％A7％86％E9％A2％91'").groupBy("uri").\
count().sort("count", ascending=False)

注意点：

1.rlike 后面进行批量匹配用引号包裹即可

2.rlike 中要匹配特殊字符的话，不需要转义

3.rlike '\\\\bapple\\\\b' 虽然也可以匹配但是匹配数量不全，具体原因不明，欢迎讨论。

In [5]: df.filter("name rlike '％'").show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 4| 140|A％l％i|
| 6| 180| i％ce|
+---+------+-----+

3.spark sql

spark.sql("select uri from t where uri like '％com.tencent.tmgp.sgame％' or uri like 'douyu'").show(5)

如果要批量匹配的话，就需要在后面继续添加uri like '％blabla％',就有点繁琐了。

对了这里需要提到原生sql 的批量匹配,regexp 就很方便了，跟rlike 有点相似

mysql> select count(*) from url_parse where uri regexp 'android.ugc.live|com.tencent.tmgp.sgame';
+----------+
| count(*) |
+----------+
| 9768 |
+----------+
1 row in set (0.52 sec)

于是这里就可以将sql中regexp 应用到spark sql 中

In [9]: spark.sql('select * from t where name regexp "％l|t|_"').show()
+---+------+------+
|age|height| name|
+---+------+------+
| 1| 150|Al_ice|
| 4| 140| A％l％i|
+---+------+------+

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。如有错误或未考虑完全的地方，望不吝赐教。

来源：https://blog.csdn.net/baidu_38409988/article/details/91968148

标签：python,pandas,模糊匹配,Excel,指标

投稿

python pandas模糊匹配读取Excel后获取指定指标的操作

1.首先读取Excel文件

2.pandas实现过程

1.pandas dataframe

2.spark dataframe api, filter rlike 联合使用

3.spark sql

猜你喜欢

浅析node命令行交互原理

vue中将el-switch值true、false改为number类型的1和0

Python图像运算之图像掩膜直方图和HS直方图详解

laravel实现中文和英语互相切换的例子

Python实现的knn算法示例

python 输出列表元素实例(以空格/逗号为分隔符)

在pytorch中计算准确率,召回率和F1值的操作

兼容所有浏览器的设为首页与显示小策略

JavaScript的eval JSON object问题

CentOS 6.3下安装部署Oracle服务器图文教程

SQL Server 数据库基础编程详解

fetch网络请求封装示例详解

如何使用数据绑定控件实现不换页提交数据？

贝聿铭写给年轻设计师的十点忠告

关于networkx返回图的邻接矩阵问题

Pycharm最新激活码2019(推荐)

老生常谈Python之装饰器、迭代器和生成器

Python中的Matplotlib模块入门教程

零基础也能看懂的python内置csv模块教程

解决Dreamweaver不支持中文文件名方法

python pandas模糊匹配 读取Excel后 获取指定指标的操作

1.首先读取Excel文件

2.pandas实现过程

1.pandas dataframe

2.spark dataframe api, filter rlike 联合使用

3.spark sql

猜你喜欢

浅析node命令行交互原理

vue中将el-switch值true、false改为number类型的1和0

Python图像运算之图像掩膜直方图和HS直方图详解

laravel实现中文和英语互相切换的例子

Python实现的knn算法示例

python 输出列表元素实例(以空格/逗号为分隔符)

在pytorch中计算准确率,召回率和F1值的操作

兼容所有浏览器的设为首页与显示小策略

JavaScript的eval JSON object问题

CentOS 6.3下安装部署Oracle服务器图文教程

SQL Server 数据库基础编程详解

fetch网络请求封装示例详解

如何使用数据绑定控件实现不换页提交数据？

贝聿铭写给年轻设计师的十点忠告

关于networkx返回图的邻接矩阵问题

Pycharm最新激活码2019(推荐)

老生常谈Python之装饰器、迭代器和生成器

Python中的Matplotlib模块入门教程

零基础也能看懂的python内置csv模块教程

解决Dreamweaver不支持中文文件名方法

python pandas模糊匹配读取Excel后获取指定指标的操作