摘要：问题描述：我遇到这样一种情况，有时当我读取时，csv我df会得到一个名为的不需要的索引类列unnamed:0。file.csv,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9 CSV 的读取方式如下：pd.read_csv('file.csv') Unnamed: 0 A B C 0...

问题描述：

我遇到这样一种情况，有时当我读取时，csv我df会得到一个名为的不需要的索引类列unnamed:0。

file.csv

,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9

CSV 的读取方式如下：

pd.read_csv('file.csv')

   Unnamed: 0  A  B  C
0           0  1  2  3
1           1  4  5  6
2           2  7  8  9

这太烦人了！有人知道如何摆脱它吗？

解决方案 1：

它是索引列，传递pd.to_csv(..., index=False)首先不要写出未命名的索引列，请参阅to_csv()文档。

例子：

In [37]:
df = pd.DataFrame(np.random.randn(5,3), columns=list('abc'))
pd.read_csv(io.StringIO(df.to_csv()))

Out[37]:
   Unnamed: 0         a         b         c
0           0  0.109066 -1.112704 -0.545209
1           1  0.447114  1.525341  0.317252
2           2  0.507495  0.137863  0.886283
3           3  1.452867  1.888363  1.168101
4           4  0.901371 -0.704805  0.088335

比较：

In [38]:
pd.read_csv(io.StringIO(df.to_csv(index=False)))

Out[38]:
          a         b         c
0  0.109066 -1.112704 -0.545209
1  0.447114  1.525341  0.317252
2  0.507495  0.137863  0.886283
3  1.452867  1.888363  1.168101
4  0.901371 -0.704805  0.088335

您还可以read_csv通过以下方式选择性地告诉第一列是索引列index_col=0：

In [40]:
pd.read_csv(io.StringIO(df.to_csv()), index_col=0)

Out[40]:
          a         b         c
0  0.109066 -1.112704 -0.545209
1  0.447114  1.525341  0.317252
2  0.507495  0.137863  0.886283
3  1.452867  1.888363  1.168101
4  0.901371 -0.704805  0.088335

解决方案 2：

这通常是由于您的 CSV 与（未命名）索引（）一起保存造成的RangeIndex。

（实际上，在保存 DataFrame 时需要进行修复，但这并不总是一种选择。）

解决方法：`read_csv`使用`index_col=[0]` 参数

在我看来，最简单的解决方案是将未命名的列读取为索引。为指定一个index_col=[0]参数pd.read_csv，这将读取第一列作为索引。（请注意方括号）。

df = pd.DataFrame('x', index=range(5), columns=list('abc'))
df

   a  b  c
0  x  x  x
1  x  x  x
2  x  x  x
3  x  x  x
4  x  x  x

# Save DataFrame to CSV.
df.to_csv('file.csv')

pd.read_csv('file.csv')

   Unnamed: 0  a  b  c
0           0  x  x  x
1           1  x  x  x
2           2  x  x  x
3           3  x  x  x
4           4  x  x  x

# Now try this again, with the extra argument.
pd.read_csv('file.csv', index_col=[0])

   a  b  c
0  x  x  x
1  x  x  x
2  x  x  x
3  x  x  x
4  x  x  x

注意：如果您的 DataFrame 没有索引，那么
您可以通过使用以下方法首先避免这种情况：如果输出 CSV 是在 pandas 中创建的：index=False
df.to_csv('file.csv', index=False)
但正如上面提到的，这并不总是一种选择。

权宜之计：过滤`str.match`

如果您无法修改代码来读取/写入 CSV 文件，则可以通过以下方式过滤来删除该列str.match：

df 

   Unnamed: 0  a  b  c
0           0  x  x  x
1           1  x  x  x
2           2  x  x  x
3           3  x  x  x
4           4  x  x  x

df.columns
# Index(['Unnamed: 0', 'a', 'b', 'c'], dtype='object')

df.columns.str.match('Unnamed')
# array([ True, False, False, False])

df.loc[:, ~df.columns.str.match('Unnamed')]
 
   a  b  c
0  x  x  x
1  x  x  x
2  x  x  x
3  x  x  x
4  x  x  x

解决方案 3：

要删除所有未命名的列，您还可以使用正则表达式，例如df.drop(df.filter(regex="Unname"),axis=1, inplace=True)

解决方案 4：

您可以对“未命名”列执行以下任一操作：

删除未命名的列
重命名它们（如果您想使用它们）

方法 1：删除未命名的列

# delete one by one like column is 'Unnamed: 0' so use it's name
df.drop('Unnamed: 0', axis=1, inplace=True)

#delete all Unnamed Columns in a single code of line using regex
df.drop(df.filter(regex="Unnamed"),axis=1, inplace=True)

方法 2：重命名未命名的列

df.rename(columns = {'Unnamed: 0':'Name'}, inplace = True)

如果您想要像输入文件一样写出一个空白标题，只需选择上面的“名称”为“”。

OP 的输入数据 'file.csv' 为：

,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9

读取文件

df = pd.read_csv('file.csv')

解决方案 5：

另一种可能发生这种情况的情况是，如果您的数据被错误地写入，csv每行以逗号结尾。Unnamed: x当您尝试将数据读入时，数据末尾会出现一个未命名的列df。

解决方案 6：

只需使用以下命令删除该列：del df['column_name']

解决方案 7：

简单这样做：

df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

解决方案 8：

或者：

df = df.drop(columns=['Unnamed: 0'])

解决方案 9：

from IPython.display import display
import pandas as pd
import io


df = pd.read_csv('file.csv',index_col=[0])
df = pd.read_csv(io.StringIO(df.to_csv(index=False)))
display(df.head(5))

解决方案 10：

根据我的经验，您可能有许多理由不想将该列设置为 index_col =[0]，正如上面许多人建议的那样。例如，它可能包含混乱的索引值，因为数据在索引或排序后保存到 csv 中，而不会df.reset_index(drop=True)导致即时混乱。

因此，如果您知道文件包含此列而您不想要它，那么根据原始问题，最简单的一行解决方案是：

df = pd.read_csv('file.csv').drop(columns=['Unnamed: 0'])

或者

df = pd.read_csv('file.csv',index_col=[0]).reset_index(drop=True)

解决方案 11：

我认为您引用的列是索引的情况。无论如何，我建议使用这个更通用的解决方案：

df = pd.read_csv("file.csv", usecols=lambda col: not col.startswith("Unnamed"))

解决方案 12：

df.to_csv()下面显示了使用时与索引是否已写入无关的解决方案：

df = pd.read_csv(file_name)
if 'Unnamed: 0' in df.columns:
    df.drop('Unnamed: 0', axis=1, inplace=True)

如果没有写入索引，那么index_col=[0]将使用第一列作为索引，这是一种人们不想要的行为。

解决方案 13：

我的问题略有不同。第一个标题未命名，这导致我之后的所有数据都向左移动，使其错位，并使最后一列全部为 NaN。

我使用以下方法解决了该问题：

df = pd.read_csv('filename.csv', nrows=1)
columns = list(df.columns)[1:]
df = pd.read_csv('filename.csv', skiprows=1, header=None, names=columns)

如何摆脱从 CSV 文件读取的 pandas DataFrame 中的“未命名：0”列？

问题描述：

解决方案 1：

解决方案 2：

解决方法：`read_csv`使用`index_col=[0]` 参数

权宜之计：过滤`str.match`

解决方案 3：

解决方案 4：

方法 1：删除未命名的列

方法 2：重命名未命名的列

读取文件

解决方案 5：

解决方案 6：

解决方案 7：

解决方案 8：

解决方案 9：

解决方案 10：

解决方案 11：

解决方案 12：

解决方案 13：

云端的项目管理软件

问题描述：

解决方案 1：

解决方案 2：

解决方法：read_csv使用index_col=[0] 参数

权宜之计：过滤str.match

解决方案 3：

解决方案 4：

方法 1：删除未命名的列

方法 2：重命名未命名的列

读取文件

解决方案 5：

解决方案 6：

解决方案 7：

解决方案 8：

解决方案 9：

解决方案 10：

解决方案 11：

解决方案 12：

解决方案 13：

云端的项目管理软件

解决方法：`read_csv`使用`index_col=[0]` 参数

权宜之计：过滤`str.match`