在 Pandas 中用 NaN 替换空白值（空格）-IT科技

摘要：问题描述：我想在 Pandas 数据框中找到所有包含空格（任意数量）的值，并用 NaN 替换这些值。有什么想法可以改善这种情况吗？基本上我想把这个变成： A B C 2000-01-01 -0.532681 foo 0 2000-01-02 1.490...

问题描述：

我想在 Pandas 数据框中找到所有包含空格（任意数量）的值，并用 NaN 替换这些值。

有什么想法可以改善这种情况吗？

基本上我想把这个变成：

                   A    B    C
2000-01-01 -0.532681  foo    0
2000-01-02  1.490752  bar    1
2000-01-03 -1.387326  foo    2
2000-01-04  0.814772  baz     
2000-01-05 -0.222552         4
2000-01-06 -1.176781  qux

变成这样：

                   A     B     C
2000-01-01 -0.532681   foo     0
2000-01-02  1.490752   bar     1
2000-01-03 -1.387326   foo     2
2000-01-04  0.814772   baz   NaN
2000-01-05 -0.222552   NaN     4
2000-01-06 -1.176781   qux   NaN

我设法用下面的代码做到了这一点，但它太丑了。它不是 Pythonic，我敢肯定它也不是最有效的使用 pandas 的方式。我循环遍历每一列，并根据通过应用一个函数生成的列掩码进行布尔替换，该函数对每个值进行正则表达式搜索，匹配空格。

for i in df.columns:
    df[i][df[i].apply(lambda i: True if re.search('^s*$', str(i)) else False)]=None

可以通过仅迭代可能包含空字符串的字段来稍微优化一下：

if df[i].dtype == np.dtype('object')

但这并不是很大的进步

最后，此代码将目标字符串设置为 None，它可以与 Pandas 的函数（如）一起使用，但如果我实际上可以直接插入而不是插入，fillna()那么为了完整性会更好。NaN`None`

解决方案 1：

我认为df.replace()可以完成这项工作，因为pandas 0.13：

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

# replace field that's entirely space (or empty) with NaN
print(df.replace(r'^s*$', np.nan, regex=True))

生成：

                   A    B   C
2000-01-01 -0.532681  foo   0
2000-01-02  1.490752  bar   1
2000-01-03 -1.387326  foo   2
2000-01-04  0.814772  baz NaN
2000-01-05 -0.222552  NaN   4
2000-01-06 -1.176781  qux NaN

正如Temak指出的那样，df.replace(r'^s+$', np.nan, regex=True)当您的有效数据包含空格时使用。

解决方案 2：

如果您想替换空字符串并仅用空格记录，正确的答案是！：

df = df.replace(r'^s*$', np.nan, regex=True)

接受的答案

df.replace(r's+', np.nan, regex=True)

不替换空字符串！你可以使用稍微更新的给定示例自己尝试一下：

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'fo o', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', ''],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

还请注意，虽然 'fo o' 包含空格，但它不会被替换为 Nan。进一步注意，一个简单的：

df.replace(r'', np.NaN)

也不起作用--尝试一下。

解决方案 3：

我这样做了：

df = df.apply(lambda x: x.str.strip()).replace('', np.nan)

或者

df = df.apply(lambda x: x.str.strip() if isinstance(x, str) else x).replace('', np.nan)

您可以删除所有 str，然后用替换空 str np.nan。

解决方案 4：

怎么样：

d = d.applymap(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)

该applymap函数将函数应用于数据框的每个单元。

解决方案 5：

如果您要从 CSV 文件导出数据，则可以像这样简单：

df = pd.read_csv(file_csv, na_values=' ')

这将创建数据框并将空白值替换为 Na

解决方案 6：

最简单的解决方案：

df = df.replace(r'^s+$', np.nan, regex=True)

解决方案 7：

为了获得一种非常快速和简单的解决方案，即检查与单个值的相等性，您可以使用该mask方法。

df.mask(df == ' ')

解决方案 8：

print(df.isnull().sum()) # check numbers of null value in each column

modifiedDf=df.fillna("NaN") # Replace empty/null values with "NaN"

# modifiedDf = fd.dropna() # Remove rows with empty values

print(modifiedDf.isnull().sum()) # check numbers of null value in each column

解决方案 9：

这对我有用。当我导入我的 csv 文件时，我添加了 na_values = ' '。默认 NaN 值中不包含空格。

df= pd.read_csv(filepath,na_values = ' ')

解决方案 10：

当用替换空字符串时np.nan，pandas 的较新版本（2024、pandas >= 2.2.0）将显示警告。

FutureWarning：中的向下转型行为replace已弃用，并将在未来版本中删除。要保留旧行为，请显式调用result.infer_objects(copy=False)。要选择加入未来行为，请设置pd.set_option('future.no_silent_downcasting', True)

虽然关闭此警告是一种选择，但更好的方法是不使用np.nan，而是使用pd.NA。例如，

df = df.replace('', pd.NA)

或者使用你喜欢的任何条件：

df = df.replace(r'^s*$', pd.NA, regex=True)

ETC。

解决方案 11：

这些都接近正确答案，但我不会说任何方法都能解决问题，同时让阅读代码的人保持最易读性。我想说这个答案是BrenBarn 的答案和 tuomasttik 在该答案下方的评论的结合。BrenBarn 的答案使用了isspace内置函数，但不支持删除空字符串，正如 OP 所要求的那样，我倾向于将其归因于用 null 替换字符串的标准用例。

我用重写了它.apply，因此您可以在pd.Series或上调用它pd.DataFrame。

Python 3：

要替换空字符串或完全由空格组成的字符串：

df = df.apply(lambda x: np.nan if isinstance(x, str) and (x.isspace() or not x) else x)

要替换完全由空格组成的字符串：

df = df.apply(lambda x: np.nan if isinstance(x, str) and x.isspace() else x)

要在 Python 2 中使用它，您需要将其替换str为basestring。

Python 2：

要替换空字符串或完全由空格组成的字符串：

df = df.apply(lambda x: np.nan if isinstance(x, basestring) and (x.isspace() or not x) else x)

要替换完全由空格组成的字符串：

df = df.apply(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)

解决方案 12：

这应该有效

df.loc[df.Variable == '', 'Variable'] = 'Value'

或者

df.loc[df.Variable1 == '', 'Variable2'] = 'Value'

解决方案 13：

这不是一个优雅的解决方案，但似乎可行的方法是保存到 XLSX，然后将其导入回来。本页上的其他解决方案对我来说不起作用，不知道为什么。

data.to_excel(filepath, index=False)
data = pd.read_excel(filepath)

解决方案 14：

您也可以使用过滤器来完成此操作。

df = PD.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '])
    df[df=='']='nan'
    df=df.astype(float)