pandas:索引数据框时的多个条件 - 意外行为

2025-01-20 09:07:00
admin
原创
113
摘要:问题描述:我正在根据两列的值过滤数据框中的行。由于某种原因,OR 运算符的行为与我期望 AND 运算符的行为一样,反之亦然。我的测试代码:df = pd.DataFrame({'a': range(5), 'b': range(5) }) # let's insert some -1 values df['...

问题描述:

我正在根据两列的值过滤数据框中的行。

由于某种原因,OR 运算符的行为与我期望 AND 运算符的行为一样,反之亦然。

我的测试代码:

df = pd.DataFrame({'a': range(5), 'b': range(5) })

# let's insert some -1 values
df['a'][1] = -1
df['b'][1] = -1
df['a'][3] = -1
df['b'][4] = -1

df1 = df[(df.a != -1) & (df.b != -1)]
df2 = df[(df.a != -1) | (df.b != -1)]

print(pd.concat([df, df1, df2], axis=1,
                keys = [ 'original df', 'using AND (&)', 'using OR (|)',]))

结果如下:

      original df      using AND (&)      using OR (|)    
             a  b              a   b             a   b
0            0  0              0   0             0   0
1           -1 -1            NaN NaN           NaN NaN
2            2  2              2   2             2   2
3           -1  3            NaN NaN            -1   3
4            4 -1            NaN NaN             4  -1

[5 rows x 6 columns]

如您所见,AND运算符会删除其中至少有一个值等于的每一行-1。另一方面,OR运算符要求两个值都等于才能-1删除它们。我期望的结果恰恰相反。有人能解释这种行为吗?

我正在使用 pandas 0.13.1。


解决方案 1:

如您所见,AND 运算符会删除其中至少有一个值等于 -1 的每一行。另一方面,OR 运算符要求两个值都等于 -1 才能删除它们。

没错。请记住,您是在根据要保留的内容编写条件,而不是根据要删除的内容编写条件。对于df1

df1 = df[(df.a != -1) & (df.b != -1)]

df.a您的意思是“保留不是 -1 且不是 -1的行df.b”,这与删除至少有一个值为 -1 的每一行相同。

为了df2

df2 = df[(df.a != -1) | (df.b != -1)]

df.a您的意思是“保留或不为 -1的行df.b”,这与删除两个值都是 -1 的行相同。

PS:使用 和 进行链式访问df['a'][1] = -1可能会给您带来麻烦。最好养成使用.loc和 的习惯.iloc

解决方案 2:

回答晚了,但您也可以使用query(),例如:

df_filtered = df.query('a == 4 & b != 2')

解决方案 3:

这里有一点数理逻辑理论

“NOT a AND NOT b”与“NOT (a OR b)”相同,因此:

“a NOT -1 AND b NOT -1” 等价于 “NOT (a is -1 OR b is -1)” ,后者是“(a is -1 OR b is -1)”的反义词(补语)。

因此,如果您想要完全相反的结果,df1 和 df2 应该如下所示:

df1 = df[(df.a != -1) & (df.b != -1)]
df2 = df[(df.a == -1) | (df.b == -1)]

解决方案 4:

使用括号

如果您因为条件在逻辑上正确但过滤操作却没有给出正确答案而来到此页面,那么首先要检查的是您是否使用括号分隔条件。

例如,如果你想过滤掉列'a'和值'b'不等于 -1 的行,那么编写以下代码

df[df['a'] != -1 & df['b'] != -1]      # <--- forgot parenthesis

会产生完全出乎意料的输出,仅仅是因为&/比/等|比较运算符具有更高的优先级。您可以通过括号分别评估每个条件来获得正确的输出:!=`==`

df[(df['a'] != -1) & (df['b'] != -1)]  # <--- used parentheses

NB @Pedro 的答案使用query()消除了这种需要,因为在评估的数值表达式中query,比较运算符实际上是在and/or等之前进行评估的。


写出正确的逻辑表达式

根据德摩根定律,(i)并集的否定等于否定的交集,(ii)交集的否定等于否定的并集,即

A AND B <=> not A OR not B
A OR B  <=> not A AND not B

如果目的是

删除至少有一个值等于 -1 的每一行

您可以使用运算符来识别要保留AND的行,也可以使用运算符来识别要删除的行。OR

# select rows where both a and b values are not equal to -1
df2_0 = df[df['a'].ne(-1) & df['b'].ne(-1)]

# index of rows where at least one of a or b equals -1
idx = df.index[df.eval('a == -1 or b == -1')]
# drop `idx` rows
df2_1 = df.drop(idx)

df2_0.equals(df2_1) # True

另一方面,如果目标是

删除两个值都等于 -1 的每一行

你做的恰恰相反;要么使用运算符来识别要保留的OR行,要么使用运算符来识别要删除的行。AND

解决方案 5:

您可以尝试以下操作:

df1 = df[(df['a'] != -1) & (df['b'] != -1)]       
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2941  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1803  
  PLM(产品生命周期管理)系统在企业的产品研发、生产与管理过程中扮演着至关重要的角色。然而,在实际运行中,资源冲突是经常会遇到的难题。资源冲突可能导致项目进度延迟、成本增加以及产品质量下降等一系列问题,严重影响企业的效益与竞争力。因此,如何有效应对PLM系统中的资源冲突,成为众多企业关注的焦点。接下来,我们将详细探讨5...
plm项目管理系统   31  
  敏捷项目管理与产品生命周期管理(PLM)的融合,正成为企业在复杂多变的市场环境中提升研发效率、增强竞争力的关键举措。随着技术的飞速发展和市场需求的快速更迭,传统的研发流程面临着诸多挑战,而将敏捷项目管理理念融入PLM,有望在2025年实现研发流程的深度优化,为企业创造更大的价值。理解敏捷项目管理与PLM的核心概念敏捷项...
plm项目   31  
  模块化设计在现代产品开发中扮演着至关重要的角色,它能够提升产品开发效率、降低成本、增强产品的可维护性与可扩展性。而产品生命周期管理(PLM)系统作为整合产品全生命周期信息的关键平台,对模块化设计有着强大的支持能力。随着技术的不断发展,到 2025 年,PLM 系统在支持模块化设计方面将有一系列令人瞩目的技术实践。数字化...
plm软件   28  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用