如何为 size() 列指定名称?

2025-02-27 09:07:00
admin
原创
95
摘要:问题描述:我正在使用.size()groupby 结果来计算每个组中有多少个项目。我希望将结果保存到新的列名中,而无需手动编辑列名数组,该怎么做?这是我尝试过的:grpd = df.groupby(['A','B']) grpd['size'] = grpd.size() grpd 我得到的错误是:TypeE...

问题描述:

我正在使用.size()groupby 结果来计算每个组中有多少个项目。

我希望将结果保存到新的列名中,而无需手动编辑列名数组,该怎么做?

这是我尝试过的:

grpd = df.groupby(['A','B'])
grpd['size'] = grpd.size()
grpd

我得到的错误是:

TypeError:'DataFrameGroupBy'对象不支持项目分配(在第二行)


解决方案 1:

DataFrameGroupBy 对象的内置方法.size()实际上返回的是具有组大小的 Series 对象,而不是 DataFrame。如果您想要一个 DataFrame,其列是组大小,按组索引,具有自定义名称,则可以使用该.to_frame()方法并使用所需的列名作为其参数。

grpd = df.groupby(['A','B']).size().to_frame('size')

如果您希望这些组再次成为列,您可以.reset_index()在末尾添加。

解决方案 2:

您需要-与以前相同:transform size`len`df

注意:

这里需要在后面添加一列groupby,否则会出现错误。因为GroupBy.sizecountNaN也是,所以使用哪一列并不重要。所有列的工作方式都相同。

import pandas as pd

df = pd.DataFrame({'A': ['x', 'x', 'x','y','y']
                , 'B': ['a', 'c', 'c','b','b']})
print (df)
   A  B
0  x  a
1  x  c
2  x  c
3  y  b
4  y  b

df['size'] = df.groupby(['A', 'B'])['A'].transform('size')
print (df)
   A  B  size
0  x  a     1
1  x  c     2
2  x  c     2
3  y  b     2
4  y  b     2

如果需要在聚合中设置列名df--len显然与以前df一样:

import pandas as pd

df = pd.DataFrame({'A': ['x', 'x', 'x','y','y']
                , 'B': ['a', 'c', 'c','b','b']})
print (df)
   A  B
0  x  a
1  x  c
2  x  c
3  y  b
4  y  b

df = df.groupby(['A', 'B']).size().reset_index(name='Size')
print (df)
   A  B  Size
0  x  a     1
1  x  c     2
2  y  b     2

解决方案 3:

结果df.groupby(...)不是 DataFrame。要返回 DataFrame,您必须对每个组应用函数、转换组中的每个元素或筛选组。

看起来您想要一个 DataFrame,其中包含 (1) 所有原始数据df和 (2) 每个组中数据的数量。这些东西的长度不同,因此如果它们需要放入同一个 DataFrame,您需要重复列出大小,即每个组中的每一行。

df['size'] = df.groupby(['A','B']).transform(np.size)

(附言:如果您能展示简洁的样本输入和预期结果,将会很有帮助。)

解决方案 4:

您可以设置as_index参数来groupby获取FalseDataFrame 而不是 Series:

df = pd.DataFrame({'A': ['a', 'a', 'b', 'b'], 'B': [1, 2, 2, 2]})

df.groupby(['A', 'B'], as_index=False).size()

输出:

   A  B  size
0  a  1     1
1  a  2     1
2  b  2     2

解决方案 5:

假设 n 是数据框的名称,cst 是重复项的数量。下面的代码给出了下一列中的计数

cstn=Counter(n.cst)
cstlist = pd.DataFrame.from_dict(cstn, orient='index').reset_index()
cstlist.columns=['name','cnt']
n['cnt']=n['cst'].map(cstlist.loc[:, ['name','cnt']].set_index('name').iloc[:,0].to_dict())

希望这会有用

相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   3194  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1975  
  产品生命周期管理(PLM)系统在现代企业的产品研发、生产与管理过程中扮演着至关重要的角色。它整合了从产品概念设计到产品退役的全生命周期数据与流程,帮助企业提高效率、降低成本、提升产品质量。以下将详细介绍PLM系统的7个核心功能模块。产品数据管理模块产品数据管理模块是PLM系统的基础与核心。它负责对产品相关的各类数据进行...
plm项目管理软件   0  
  引言PLM(产品生命周期管理)系统在企业运营中扮演着至关重要的角色,尤其是在合规性管理方面。随着全球贸易环境的日益复杂,出口管制法规不断变化且愈发严格,企业面临着巨大的合规挑战。任何违反出口管制规定的行为都可能导致严重的法律后果,包括高额罚款、业务受限甚至刑事处罚。因此,如何利用PLM系统实现有效的合规性管理,成为众多...
国产plm软件排名   0  
  PLM(产品生命周期管理)项目管理旨在通过整合产品从概念设计到退役的全生命周期信息,实现产品创新、提高质量和降低成本。在这一复杂过程中,风险动态监控至关重要。有效的风险监控机制能及时发现潜在问题,提前制定应对策略,确保项目顺利推进。本文将阐述五阶段监控机制,助力PLM项目管理更好地应对风险。项目启动阶段的风险预评估项目...
plm管理   0  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用