根据列表索引选择 Pandas 行-IT科技

根据列表索引选择 Pandas 行

2025-04-15 09:20:00

admin

原创

摘要：问题描述：我有一个dataframe df：20060930 10.103 NaN 10.103 7.981 20061231 15.915 NaN 15.915 12.686 20070331 3.196 NaN 3.196 2...

问题描述：

我有一个dataframe df：

20060930  10.103       NaN     10.103   7.981
20061231  15.915       NaN     15.915  12.686
20070331   3.196       NaN      3.196   2.710
20070630   7.907       NaN      7.907   6.459

然后我想选择列表中指示的具有特定序列号的行，假设这里是[1,3]，然后向左：

20061231  15.915       NaN     15.915  12.686
20070630   7.907       NaN      7.907   6.459

如何或者什么功能可以做到这一点？

解决方案 1：

用于.iloc基于整数的索引和.loc基于标签的索引。参见以下示例：

ind_list = [1, 3]
df.iloc[ind_list]

解决方案 2：

您还可以使用 iloc：

df.iloc[[1,3],:]

如果由于先前的计算，数据框中的索引与行的顺序不对应，则此方法无效。在这种情况下，请使用：

df.index.isin([1,3])

...正如其他回复所建议的那样。

解决方案 3：

另一种方法（虽然代码更长）比上面的代码更快。使用 %timeit 函数检查一下：

df[df.index.isin([1,3])]

PS：你弄清楚原因

在此处输入图片描述

解决方案 4：

如果index_list包含您想要的索引，您可以通过执行以下操作获取具有所需行的数据框

index_list = [1,2,3,4,5,6]
df.loc[df.index[index_list]]

这是基于截至 2021 年 3 月的最新文档。

解决方案 5：

对于大型数据集，通过参数仅读取选定的行可以节省内存skiprows。

例子

pred = lambda x: x not in [1, 3]
pd.read_csv("data.csv", skiprows=pred, index_col=0, names=...)

现在，这将从文件中返回一个 DataFrame，该 DataFrame 跳过除第 1 行和第 3 行之外的所有行。

细节

来自文档：

skiprows：列表或整数或可调用，默认None
...
如果可调用，则可调用函数将根据行索引进行评估，如果该行应被跳过，则返回 True，否则返回 False。有效的可调用参数示例如下lambda x: x in [0, 2]

此功能适用于 pandas 0.20.0+ 版本。另请参阅相应问题和相关文章。

解决方案 6：

您要尝试做的是按索引过滤数据框。目前在 Pandas 中执行此操作的最佳方法如下：

单一索引

desired_index_list = [1,3]
df[df.index.isin(desired_index_list)]

多索引

desired_index_list = [1,3]
index_level_to_filter = 0
df[df.index.get_level_values(index_level_to_filter).isin(desired_index_list)]

解决方案 7：

解决这个问题的方法有很多，上面列出的是实现该解决方案的最常用方法。我想再添加两种方法，以防有人正在寻找替代方案。

index_list = [1,3]

df.take(pos)

#or

df.query('index in @index_list')

解决方案 8：

从过滤索引中获取新的 DataFrame：

对于我的问题，我需要从索引中创建一个新的 DataFrame。我找到了一种直接的方法来做到这一点：

iloc_list=[1,2,4,8]
df_new = df.filter(items = iloc_list , axis=0)

您还可以使用它来过滤列。请参阅文档了解更多详情。