在 Pandas 中用 NaN 替换空白值(空格)
- 2025-01-16 08:38:00
- admin 原创
- 152
问题描述:
我想在 Pandas 数据框中找到所有包含空格(任意数量)的值,并用 NaN 替换这些值。
有什么想法可以改善这种情况吗?
基本上我想把这个变成:
A B C
2000-01-01 -0.532681 foo 0
2000-01-02 1.490752 bar 1
2000-01-03 -1.387326 foo 2
2000-01-04 0.814772 baz
2000-01-05 -0.222552 4
2000-01-06 -1.176781 qux
变成这样:
A B C
2000-01-01 -0.532681 foo 0
2000-01-02 1.490752 bar 1
2000-01-03 -1.387326 foo 2
2000-01-04 0.814772 baz NaN
2000-01-05 -0.222552 NaN 4
2000-01-06 -1.176781 qux NaN
我设法用下面的代码做到了这一点,但它太丑了。它不是 Pythonic,我敢肯定它也不是最有效的使用 pandas 的方式。我循环遍历每一列,并根据通过应用一个函数生成的列掩码进行布尔替换,该函数对每个值进行正则表达式搜索,匹配空格。
for i in df.columns:
df[i][df[i].apply(lambda i: True if re.search('^s*$', str(i)) else False)]=None
可以通过仅迭代可能包含空字符串的字段来稍微优化一下:
if df[i].dtype == np.dtype('object')
但这并不是很大的进步
最后,此代码将目标字符串设置为 None,它可以与 Pandas 的函数(如)一起使用,但如果我实际上可以直接插入而不是插入,fillna()
那么为了完整性会更好。NaN
`None`
解决方案 1:
我认为df.replace()
可以完成这项工作,因为pandas 0.13:
df = pd.DataFrame([
[-0.532681, 'foo', 0],
[1.490752, 'bar', 1],
[-1.387326, 'foo', 2],
[0.814772, 'baz', ' '],
[-0.222552, ' ', 4],
[-1.176781, 'qux', ' '],
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))
# replace field that's entirely space (or empty) with NaN
print(df.replace(r'^s*$', np.nan, regex=True))
生成:
A B C
2000-01-01 -0.532681 foo 0
2000-01-02 1.490752 bar 1
2000-01-03 -1.387326 foo 2
2000-01-04 0.814772 baz NaN
2000-01-05 -0.222552 NaN 4
2000-01-06 -1.176781 qux NaN
正如Temak指出的那样,df.replace(r'^s+$', np.nan, regex=True)
当您的有效数据包含空格时使用。
解决方案 2:
如果您想替换空字符串并仅用空格记录,正确的答案是!:
df = df.replace(r'^s*$', np.nan, regex=True)
接受的答案
df.replace(r's+', np.nan, regex=True)
不替换空字符串!你可以使用稍微更新的给定示例自己尝试一下:
df = pd.DataFrame([
[-0.532681, 'foo', 0],
[1.490752, 'bar', 1],
[-1.387326, 'fo o', 2],
[0.814772, 'baz', ' '],
[-0.222552, ' ', 4],
[-1.176781, 'qux', ''],
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))
还请注意,虽然 'fo o' 包含空格,但它不会被替换为 Nan。进一步注意,一个简单的:
df.replace(r'', np.NaN)
也不起作用--尝试一下。
解决方案 3:
我这样做了:
df = df.apply(lambda x: x.str.strip()).replace('', np.nan)
或者
df = df.apply(lambda x: x.str.strip() if isinstance(x, str) else x).replace('', np.nan)
您可以删除所有 str,然后用 替换空 str np.nan
。
解决方案 4:
怎么样:
d = d.applymap(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)
该applymap
函数将函数应用于数据框的每个单元。
解决方案 5:
如果您要从 CSV 文件导出数据,则可以像这样简单:
df = pd.read_csv(file_csv, na_values=' ')
这将创建数据框并将空白值替换为 Na
解决方案 6:
最简单的解决方案:
df = df.replace(r'^s+$', np.nan, regex=True)
解决方案 7:
为了获得一种非常快速和简单的解决方案,即检查与单个值的相等性,您可以使用该mask
方法。
df.mask(df == ' ')
解决方案 8:
print(df.isnull().sum()) # check numbers of null value in each column
modifiedDf=df.fillna("NaN") # Replace empty/null values with "NaN"
# modifiedDf = fd.dropna() # Remove rows with empty values
print(modifiedDf.isnull().sum()) # check numbers of null value in each column
解决方案 9:
这对我有用。当我导入我的 csv 文件时,我添加了 na_values = ' '。默认 NaN 值中不包含空格。
df= pd.read_csv(filepath,na_values = ' ')
解决方案 10:
当用 替换空字符串时np.nan
,pandas 的较新版本(2024、pandas >= 2.2.0
)将显示警告。
FutureWarning: 中的向下转型行为
replace
已弃用,并将在未来版本中删除。要保留旧行为,请显式调用result.infer_objects(copy=False)
。要选择加入未来行为,请设置pd.set_option('future.no_silent_downcasting', True)
虽然关闭此警告是一种选择,但更好的方法是不使用np.nan
,而是使用pd.NA
。例如,
df = df.replace('', pd.NA)
或者使用你喜欢的任何条件:
df = df.replace(r'^s*$', pd.NA, regex=True)
ETC。
解决方案 11:
这些都接近正确答案,但我不会说任何方法都能解决问题,同时让阅读代码的人保持最易读性。我想说这个答案是BrenBarn 的答案和 tuomasttik 在该答案下方的评论的结合。BrenBarn 的答案使用了isspace
内置函数,但不支持删除空字符串,正如 OP 所要求的那样,我倾向于将其归因于用 null 替换字符串的标准用例。
我用 重写了它.apply
,因此您可以在pd.Series
或上调用它pd.DataFrame
。
Python 3:
要替换空字符串或完全由空格组成的字符串:
df = df.apply(lambda x: np.nan if isinstance(x, str) and (x.isspace() or not x) else x)
要替换完全由空格组成的字符串:
df = df.apply(lambda x: np.nan if isinstance(x, str) and x.isspace() else x)
要在 Python 2 中使用它,您需要将其替换str
为basestring
。
Python 2:
要替换空字符串或完全由空格组成的字符串:
df = df.apply(lambda x: np.nan if isinstance(x, basestring) and (x.isspace() or not x) else x)
要替换完全由空格组成的字符串:
df = df.apply(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)
解决方案 12:
这应该有效
df.loc[df.Variable == '', 'Variable'] = 'Value'
或者
df.loc[df.Variable1 == '', 'Variable2'] = 'Value'
解决方案 13:
这不是一个优雅的解决方案,但似乎可行的方法是保存到 XLSX,然后将其导入回来。本页上的其他解决方案对我来说不起作用,不知道为什么。
data.to_excel(filepath, index=False)
data = pd.read_excel(filepath)
解决方案 14:
您也可以使用过滤器来完成此操作。
df = PD.DataFrame([
[-0.532681, 'foo', 0],
[1.490752, 'bar', 1],
[-1.387326, 'foo', 2],
[0.814772, 'baz', ' '],
[-0.222552, ' ', 4],
[-1.176781, 'qux', ' '])
df[df=='']='nan'
df=df.astype(float)
扫码咨询,免费领取项目管理大礼包!