Python Pandas,将 DataFrame 写入固定宽度文件(to_fwf?)
- 2025-04-10 09:46:00
- admin 原创
- 17
问题描述:
我看到 Pandas 有read_fwf
,但它有类似的东西吗DataFrame.to_fwf
?我正在寻找对字段宽度、数值精度和字符串对齐的支持。似乎DataFrame.to_csv
没有这样做。 numpy.savetxt
有,但我不想这样做:
numpy.savetxt('myfile.txt', mydataframe.to_records(), fmt='some format')
这似乎不对。非常感谢您的想法。
解决方案 1:
直到有人在 pandas 中实现此功能之前,您可以使用tabulate包:
import pandas as pd
from tabulate import tabulate
def to_fwf(df, fname):
content = tabulate(df.values.tolist(), list(df.columns), tablefmt="plain")
open(fname, "w").write(content)
pd.DataFrame.to_fwf = to_fwf
解决方案 2:
对于每列的自定义格式,您可以设置整行的格式。fmt 参数为每行提供格式
with open('output.dat') as ofile:
fmt = '%.0f %02.0f %4.1f %3.0f %4.0f %4.1f %4.0f %4.1f %4.0f'
np.savetxt(ofile, df.values, fmt=fmt)
解决方案 3:
pandas.DataFrame.to_string()
就是您所需要的。唯一的技巧是如何管理索引。
# Write
# df.reset_index(inplace=True) # uncomment if the index matters
df.to_string(filepath, index=False)
# Read
df = pd.read_fwf(filepath)
# df.set_index(index_names, inplace=True) # uncomment if the index matters
如果索引是pandas.Index
没有名称的 ,reset_index()
则应将其分配给 列"index"
。如果索引是pandas.MultiIndex
没有名称的 ,则应将其分配给 列["level_0", "level_1", ...]
。
解决方案 4:
Python,Pandas:将 DataFrame 的内容写入文本文件
上述问题的答案对我有帮助。这不是最好的,但至少to_fwf
对我来说,这能解决问题...
np.savetxt(r'c:data
p.txt', df.values, fmt='%d')
或者
np.savetxt(r'c:data
p.txt', df.values, fmt='%10.5f')
解决方案 5:
我确信您已经找到了解决此问题的方法,但对于其他好奇的人来说......如果将 DF 写入列表,则可以通过提供“格式为字符串”将其写入文件。格式(列表索引)例如:
df=df.fillna('')
outF = 'output.txt'
dbOut = open(temp, 'w')
v = df.values.T.tolist()
for i in range(0,dfRows):
dbOut.write(( \n '{:7.2f}{:>6.2f}{:>2.0f}{:>4.0f}{:>5.0f}{:6.2f}{:6.2f}{:6.2f}{:6.1f {:>15}{:>60}'\n .format(v[0][i],v[1][i],v[2][i],v[3][i],v[4][i],v[5][i],v[6][i],v[7][i],v[8][i],\n v[9][i],v[10][i]) ))
dbOut.write("
")
dbOut.close
只需确保每个索引都与正确的格式匹配即可:)
希望有帮助!
解决方案 6:
找到了一个非常简单的解决方案!(Python)。在截图的代码中,我试图将 DataFrame 写入位置文件。 “finalDataFrame.values.tolist()”将返回一个列表,其中 DataFrame 的每一行都会变成另一个列表,只是一个 [['Camry',2019,'Toyota'],['Mustang','2016','Ford']]。之后,借助 for 循环和 if 语句,我试图设置它的固定长度。其余的都很明显!
with open (FilePath,'w') as f:
for i in finalDataFrame.values.tolist():
widths=(0,0,0,0,0,0,0)
if i[2] == 'nan':
i[2]=''
for h in range(7):
i[2]= i[2] + ' '
else:
x=7-len(str(i[2]))
a=''
for k in range(x):
a=a+' '
i[2]=str(i[2])+a
if i[3] == '':
i[3]=''
for h in range(25):
i[3]=i[3]+' '
else:
x = 25 - len(i[3])
print(x)
a = ''
for k in range(x):
a = a + ' '
print(a)
i[3] = i[3] + a
i[4] = str(i[4])[:10]
q="".join("%*s" % i for i in zip(widths, i))
f.write(q+'
')
解决方案 7:
根据其他人的回答,这是我写的片段,在编码和性能上不是最好的:
import pandas as pd
import pickle
import numpy as np
from tabulate import tabulate
left_align_gen = lambda length, value: eval(r"'{:<<<length>>}'.format('''<<value>>'''[0:<<length>>])".replace('<<length>>', str(length)).replace('<<value>>', str(value)))
right_align_gen = lambda length, value: eval(r"'{:><<length>>}'.format('''<<value>>'''[0:<<length>>])".replace('<<length>>', str(length)).replace('<<value>>', str(value)))
# df = pd.read_pickle("dummy.pkl")
with open("df.pkl", 'rb') as f:
df = pickle.load(f)
# field width defines here, width of each field
widths=(22, 255, 14, 255, 14, 255, 255, 255, 255, 255, 255, 22, 255, 22, 255, 255, 255, 22, 14, 14, 255, 255, 255, 2, )
# format datetime
df['CREATED_DATE'] = df['CREATED_DATE'].apply(lambda x: x.to_pydatetime().strftime('%Y%m%d%H%M%S'))
df['LAST_MODIFIED_DATE'] = df['LAST_MODIFIED_DATE'].apply(lambda x: x.to_pydatetime().strftime('%Y%m%d%H%M%S'))
df['TERMS_ACCEPTED_DATE'] = df['TERMS_ACCEPTED_DATE'].apply(lambda x: x.to_pydatetime().strftime('%Y%m%d%H%M%S'))
df['PRIVACY_ACCEPTED_DATE'] = df['PRIVACY_ACCEPTED_DATE'].apply(lambda x: x.to_pydatetime().strftime('%Y%m%d%H%M%S'))
# print(type(df.iloc[0]['CREATED_DATE']))
# print(df.iloc[0])
record_line_list = []
# for row in df.iloc[:10].itertuples():
for row in [tuple(x) for x in df.to_records(index=False)]:
record_line_list.append("".join(left_align_gen(length, value) for length, value in zip(widths, row)))
with open('output.txt', 'w') as f:
f.write('
'.join(record_line_list))
Github要点
扫码咨询,免费领取项目管理大礼包!