Pandas：dropna 后就地重命名的性能出现特殊下降-IT科技

Pandas：dropna 后就地重命名的性能出现特殊下降

2025-03-04 08:24:00

admin

原创

摘要：问题描述：我已将此问题报告给pandas 问题。同时，我在此发布此问题，以节省其他人的时间，以防他们遇到类似问题。在对需要优化的进程进行分析时，我发现非就地重命名列可将性能（执行时间）提高 120 倍。分析表明这与垃圾收集有关（见下文）。此外，通过避免 dropna 方法恢复了预期的性能。以下简短示例演示了因...

问题描述：

我已将此问题报告给pandas 问题。同时，我在此发布此问题，以节省其他人的时间，以防他们遇到类似问题。

在对需要优化的进程进行分析时，我发现非就地重命名列可将性能（执行时间）提高 120 倍。分析表明这与垃圾收集有关（见下文）。

此外，通过避免 dropna 方法恢复了预期的性能。

以下简短示例演示了因子 x12：

import pandas as pd
import numpy as np

就地=真

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
df = (df1-df2).dropna()
## inplace rename:
df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

100 次循环，3 次最佳：每次循环 15.6 毫秒

第一行输出%%prun：

ncalls 总时间每次调用累计时间每次调用文件名:lineno(函数)
1  0.018 0.018 0.018 0.018 {gc.collect}

就地=假

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
df = (df1-df2).dropna()
## avoid inplace:
df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000 次循环，3 次中最佳：每次循环 1.24 毫秒

避免 dropna

通过避免使用下列方法来恢复预期的性能dropna：

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
#no dropna:
df = (df1-df2)#.dropna()
## inplace rename:
df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

1000 次循环，取 3 次最佳：每次循环 865 µs

%%timeit
np.random.seed(0)
r,c = (7,3)
t = np.random.rand(r)
df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
indx = np.random.choice(range(r),r/3, replace=False)
t[indx] = np.random.rand(len(indx))
df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)
## no dropna
df = (df1-df2)#.dropna()
## avoid inplace:
df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})