导航：首页 > 开发技术 >

Pandas中transform()结合groupby()怎么用

发表于：2024-12-05 作者：千家信息网编辑

千家信息网最后更新 2024年12月05日，小编给大家分享一下Pandas中transform()结合groupby()怎么用，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！首先，假设我们有如下餐厅数据集：import pand

千家信息网最后更新 2024年12月05日Pandas中transform()结合groupby()怎么用

小编给大家分享一下Pandas中transform()结合groupby()怎么用，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

首先，假设我们有如下餐厅数据集：

import pandas as pddf = pd.DataFrame({  'restaurant_id': [101,102,103,104,105,106,107],  'address': ['A','B','C','D', 'E', 'F', 'G'],  'city': ['London','London','London','Oxford','Oxford', 'Durham', 'Durham'],  'sales': [10,500,48,12,21,22,14]})

如果我们想知道：每个餐厅在城市中所占的销售额百分比是多少？预期得到的输出是：

相比于原来的数据集，多了两列，分别是某个城市所有餐厅的销售总额，以及每个餐厅在城市中所占的销售额百分比。解决方案有两个：

方案一（较麻烦）：

1、使用 groupby('city') 基于城市进行分组，对于这些组中的每一个组，选中其销售额列 ['sales']，然后使用函数 apply(sum) 或者sum() 对城市的销售额进行求和。

之后，新列被重命名为 city_total_sales 并且索引被重置（注意不能漏了 reset_index() ，因为 groupby('city') 生成的索引是城市，而我们希望城市作为普通列）。

city_sales = df.groupby('city')['sales']             .sum().rename('city_total_sales').reset_index()

得到的 city_sales 如下：

2、用 merge() 函数把 city_sales 合并回去，得到的 df_new 如下：

df_new = pd.merge(df, city_sales, how='left')

3、最后，求百分比并保留两位小数，结果如下：

df_new['pct'] = df_new['sales'] / df_new['city_total_sales']df_new['pct'] = df_new['pct'].apply(lambda x: format(x, '.2%'))

方案二（便捷）：

1、
transform() 函数在执行转换后保留与原始数据集相同数量的项目。因此，使用 groupby() 然后使用 transform(sum) 会返回相同的输出，结果如下图：

df['city_total_sales'] = df.groupby('city')['sales']                           .transform('sum')

代码翻译过来就是：数据集基于城市进行分组，然后选定销售额列，对每组的销售额进行求和，返回一个和原列长度一样的新列。

2、

与方案一相同。

df['pct'] = df['sales'] / df['city_total_sales']df['pct'] = df['pct'].apply(lambda x: format(x, '.2%'))

总结：可以看出，在对 DataFrame 进行分组 groupby() 之后，如果是使用 apply() 或者直接使用某个统计函数，得到的新列的长度与分组得到的组数是一样的；而如果使用 transform() ，得到的新列与 DataFrame 中列的长度是一样的。

看完了这篇文章，相信你对"Pandas中transform()结合groupby()怎么用"有了一定的了解，如果想了解更多相关知识，欢迎关注行业资讯频道，感谢各位的阅读！

很赞哦！

城市销售销售额函数数据方案餐厅分组相同百分百分比长度篇文章索引结果输出便捷原始普通两个数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全售电系统重建数据库 dns服务器登不上是怎么回事 sql数据库raw 滴滴服务器购买云服务器赚钱网络安全的相关组织视频搜索软件开发 vba中操作数据库 5g网络技术参数软件开发的需求概述网络安全难以掌控的原因阿里巴巴软件开发团队盘锦大数据软件开发软件开发外派东方航空公司数据库sql课程设计案例 css连接数据库虎丘区营销网络技术服务费戴尔服务器一直亮黄灯图解解读网络安全法如何抓取服务器上某些日志党建直播网络技术实现数据库查询员工 web数据库的应用注册服务器上下行带宽一季度服务器排名怎么使用数据库中间件哔咔怎么选火神服务器企业计划书软件开发样本答案嘉定区网络技术转让技术指导人工智能危害网络安全的事件

千家信息网

千家信息网

Pandas中transform()结合groupby()怎么用

方案一（较麻烦）：

方案二（便捷）：

有什么UI库支持暗模式

微信小程序前端怎么调用python后端的模型

相关文章