Pandas 按多个字段分组然后差异-IT科技

Pandas 按多个字段分组然后差异

2025-01-10 08:46:00

admin

原创

171

摘要：问题描述：所以我的数据框如下所示： date site country score 0 2018-01-01 google us 100 1 2018-01-01 google ch 50 2 2018-01-02 google ...

问题描述：

所以我的数据框如下所示：

         date    site country  score
0  2018-01-01  google      us    100
1  2018-01-01  google      ch     50
2  2018-01-02  google      us     70
3  2018-01-03  google      us     60
4  2018-01-02  google      ch     10
5  2018-01-01      fb      us     50
6  2018-01-02      fb      us     55
7  2018-01-03      fb      us    100
8  2018-01-01      fb      es    100
9  2018-01-02      fb      gb    100

每个人的site得分都不同，具体取决于。我正在尝试找出每个组合的1/3/5country天差异。score`site`country

输出应该是：

          date    site country  score  diff
8  2018-01-01      fb      es    100   0.0
9  2018-01-02      fb      gb    100   0.0
5  2018-01-01      fb      us     50   0.0
6  2018-01-02      fb      us     55   5.0
7  2018-01-03      fb      us    100  45.0
1  2018-01-01  google      ch     50   0.0
4  2018-01-02  google      ch     10 -40.0
0  2018-01-01  google      us    100   0.0
2  2018-01-02  google      us     70 -30.0
3  2018-01-03  google      us     60 -10.0

site我首先尝试按/ country/排序date，然后按siteand分组，country但我无法理解与分组对象之间的区别。

解决方案 1：

首先，对 DataFrame 进行排序，然后您需要做的是groupby.diff()：

df = df.sort_values(by=['site', 'country', 'date'])

df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)

df
Out: 
         date    site country  score  diff
8  2018-01-01      fb      es    100   0.0
9  2018-01-02      fb      gb    100   0.0
5  2018-01-01      fb      us     50   0.0
6  2018-01-02      fb      us     55   5.0
7  2018-01-03      fb      us    100  45.0
1  2018-01-01  google      ch     50   0.0
4  2018-01-02  google      ch     10 -40.0
0  2018-01-01  google      us    100   0.0
2  2018-01-02  google      us     70 -30.0
3  2018-01-03  google      us     60 -10.0

sort_values不支持任意排序。如果您需要任意排序（例如，google 先于 fb），则需要将它们存储在集合中并将列设置为分类。然后 sort_values 将遵循您在此处提供的顺序。

解决方案 2：

您可以移动和减去分组的值：

df.sort_values(['site', 'country', 'date'], inplace=True)

df['diff'] = df['score'] - df.groupby(['site', 'country'])['score'].shift()

结果：

         date    site country  score  diff
8  2018-01-01      fb      es    100   NaN
9  2018-01-02      fb      gb    100   NaN
5  2018-01-01      fb      us     50   NaN
6  2018-01-02      fb      us     55   5.0
7  2018-01-03      fb      us    100  45.0
1  2018-01-01  google      ch     50   NaN
4  2018-01-02  google      ch     10 -40.0
0  2018-01-01  google      us    100   NaN
2  2018-01-02  google      us     70 -30.0
3  2018-01-03  google      us     60 -10.0

NaN用0来填充df['diff'].fillna(0, inplace=True).

问题描述：

解决方案 1：

解决方案 2：

云端的项目管理软件