Pandas 根据 groupby 平均值生成新列

2025-02-28 08:23:00

admin

原创

67

摘要：问题描述：我有一个 DataFrame>>> df = pd.DataFrame({'a':[1,1,1,2,2,2], ... 'b':[10,20,20,10,20,20], ... 'result':[100,...

问题描述：

我有一个 DataFrame

>>> df = pd.DataFrame({'a':[1,1,1,2,2,2],
...                    'b':[10,20,20,10,20,20],
...                    'result':[100,200,300,400,500,600]})
... 
>>> df
   a   b  result
0  1  10     100
1  1  20     200
2  1  20     300
3  2  10     400
4  2  20     500
5  2  20     600

并希望创建一个新列，该列是“a”和“b”对应值的平均结果。我可以使用 groupby 获取这些值：

>>> df.groupby(['a','b'])['result'].mean()
a  b 
1  10    100
   20    250
2  10    400
   20    550
Name: result, dtype: int64

但不知道如何将其转换为原始 DataFrame 中的新列。最终结果应如下所示，

>>> df
   a   b  result  avg_result
0  1  10     100         100
1  1  20     200         250
2  1  20     300         250
3  2  10     400         400
4  2  20     500         550
5  2  20     600         550

我可以通过循环“a”和“b”的组合来实现这一点，但对于较大的数据集来说，这会变得非常缓慢和难以处理。可能有一种更简单、更快捷的方法。

解决方案 1：

你需要transform：

df['avg_result'] = df.groupby(['a', 'b'])['result'].transform('mean')

这将为您生成一个正确索引的 groupby 值列：

   a   b  result  avg_result
0  1  10     100         100
1  1  20     200         250
2  1  20     300         250
3  2  10     400         400
4  2  20     500         550
5  2  20     600         550

解决方案 2：

由于之前的答案（https://stackoverflow.com/a/33445035/6504287）是基于 pandas 的，因此我添加了基于 pyspark 的解决方案，如下所示：因此最好使用Window以下代码片段示例中的函数：

    windowSpecAgg  = Window.partitionBy('a', 'b')
    ext_data_df.withColumn('avg_result', avg('result').over(windowSpecAgg)).show()

上述代码是根据之前提供的解决方案（https://stackoverflow.com/a/33445035/6504287）中的示例编写的。

解决方案 3：

您需要重置索引，例如：

df.reset_index()

输出应该像你想要的那样

相关推荐

置顶 政府信创国产化的10大政策解读

政府信创国产化的10大政策解读

政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化，即信息技术应用创新国产化，是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新，实现信息技术应用的自主可控，减少对外部技术的依赖，并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧，以及某些国家对中国在科技领域的打压，信创国产化显...

工程项目管理 2941

置顶 2025年20款好用的项目管理软件推荐，项目管理提效的20个工具和技巧

2025年20款好用的项目管理软件推荐，项目管理提效的20个工具和技巧

为什么项目管理通常仍然耗时且低效？您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议？这确实是耗费时间和精力。借助软件工具的帮助，您可以一目了然地全面了解您的项目。如今，国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件？项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...

项目管理软件 1803

PLM系统如何应对资源冲突？5大解决方法

PLM系统如何应对资源冲突？5大解决方法

PLM（产品生命周期管理）系统在企业的产品研发、生产与管理过程中扮演着至关重要的角色。然而，在实际运行中，资源冲突是经常会遇到的难题。资源冲突可能导致项目进度延迟、成本增加以及产品质量下降等一系列问题，严重影响企业的效益与竞争力。因此，如何有效应对PLM系统中的资源冲突，成为众多企业关注的焦点。接下来，我们将详细探讨5...

plm项目管理系统 31

敏捷项目管理如何融入PLM？2025年7步实现研发流程优化

敏捷项目管理如何融入PLM？2025年7步实现研发流程优化

敏捷项目管理与产品生命周期管理（PLM）的融合，正成为企业在复杂多变的市场环境中提升研发效率、增强竞争力的关键举措。随着技术的飞速发展和市场需求的快速更迭，传统的研发流程面临着诸多挑战，而将敏捷项目管理理念融入PLM，有望在2025年实现研发流程的深度优化，为企业创造更大的价值。理解敏捷项目管理与PLM的核心概念敏捷项...

plm项目 31

PLM系统如何支持模块化设计？2025年3大技术实践

PLM系统如何支持模块化设计？2025年3大技术实践

模块化设计在现代产品开发中扮演着至关重要的角色，它能够提升产品开发效率、降低成本、增强产品的可维护性与可扩展性。而产品生命周期管理（PLM）系统作为整合产品全生命周期信息的关键平台，对模块化设计有着强大的支持能力。随着技术的不断发展，到 2025 年，PLM 系统在支持模块化设计方面将有一系列令人瞩目的技术实践。数字化...

plm软件 28

热门文章

政府信创国产化的10大政策解读

2025年20款好用的项目管理软件推荐，项目管理提效的20个工具和技巧

使用 Python 'Requests' 模块的代理

10个项目管理常见问题解答：包括难点和解决方法

项目延期的原因有哪些？如何有效预防和管理？

5个成功案例解析项目进度管理的最佳实践

项目里程碑计划模板怎么写?设定项目里程碑的5个方法

项目管理软件有哪些？

曾咪二维码

扫码咨询，免费领取项目管理大礼包！

云禅道AD

禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护，随时随地协同办公

内置subversion和git源码管理

每天备份，随时转为私有部署