检查字符串是否在 Pandas 数据框中
- 2025-04-16 08:56:00
- admin 原创
- 17
问题描述:
我想查看我的数据框中的特定列中是否存在特定字符串。
我收到错误
ValueError:Series 的真值不明确。请使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。
import pandas as pd
BabyDataSet = [('Bob', 968), ('Jessica', 155), ('Mary', 77), ('John', 578), ('Mel', 973)]
a = pd.DataFrame(data=BabyDataSet, columns=['Names', 'Births'])
if a['Names'].str.contains('Mel'):
print ("Mel is there")
解决方案 1:
a['Names'].str.contains('Mel')
将返回大小为布尔值的指示向量len(BabyDataSet)
因此,您可以使用
mel_count=a['Names'].str.contains('Mel').sum()
if mel_count>0:
print ("There are {m} Mels".format(m=mel_count))
或者any()
,如果您不关心有多少条记录符合您的查询
if a['Names'].str.contains('Mel').any():
print ("Mel is there")
解决方案 2:
你应该使用any()
In [98]: a['Names'].str.contains('Mel').any()
Out[98]: True
In [99]: if a['Names'].str.contains('Mel').any():
....: print("Mel is there")
....:
Mel is there
a['Names'].str.contains('Mel')
给你一系列布尔值
In [100]: a['Names'].str.contains('Mel')
Out[100]:
0 False
1 False
2 False
3 False
4 True
Name: Names, dtype: bool
解决方案 3:
原帖的意思是找出字符串“Mel”是否存在于特定列中,且不包含在该列的任何字符串中。因此,使用contains是没有必要的,而且效率也不高。
简单的等于就足够了:
df = pd.DataFrame({"names": ["Melvin", "Mel", "Me", "Mel", "A.Mel"]})
mel_count = (df['names'] == 'Mel').sum()
print("There are {num} instances of 'Mel'. ".format(num=mel_count))
mel_exists = (df['names'] == 'Mel').any()
print("'Mel' exists in the dataframe.".format(num=mel_exists))
mel_exists2 = 'Mel' in df['names'].values
print("'Mel' is in the dataframe: " + str(mel_exists2))
印刷:
There are 2 instances of 'Mel'.
'Mel' exists in the dataframe.
'Mel' is in the dataframe: True
解决方案 4:
我遇到了同样的问题,我使用了:
if "Mel" in a["Names"].values:
print("Yep")
但是这个解决方案可能会比较慢,因为 pandas 内部会根据系列创建一个列表。
解决方案 5:
如果您有需要搜索空字符串,
a['Names'].str.contains('')
将不起作用,因为它总是返回 True。
相反,使用
if '' in a["Names"].values
准确反映字符串是否在系列中,包括搜索空字符串的边缘情况。
解决方案 6:
用于不区分大小写的搜索。
a['Names'].str.lower().str.contains('mel').any()
解决方案 7:
Pandas 似乎推荐df.to_numpy since
其他方法仍然会引发FutureWarning
:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy
因此,在这种情况下可行的替代方案是:
b=a['Names']
c = b.to_numpy().tolist()
if 'Mel' in c:
print("Mel is in the dataframe column Names")
解决方案 8:
import re
s = 'string'
df['Name'] = df['Name'].str.findall(s, flags = re.IGNORECASE)
#or
df['Name'] = df[df['Name'].isin(['string1', 'string2'])]
解决方案 9:
import pandas as pd
(data_frame.col_name=='str_name_to_check').sum()
解决方案 10:
如果您想保存结果,那么您可以使用这个:
a['result'] = a['Names'].apply(lambda x : ','.join([item for item in str(x).split() if item.lower() in ['mel', 'etc']]))
解决方案 11:
您应该检查代码行的值,例如检查其长度。
if(len(a['Names'].str.contains('Mel'))>0):
print("Name Present")
相关推荐
热门文章
项目管理软件有哪些?
热门标签
曾咪二维码
扫码咨询,免费领取项目管理大礼包!
云禅道AD