如何将 AWS S3 上的文本文件导入 pandas 而不写入磁盘-IT科技

如何将 AWS S3 上的文本文件导入 pandas 而不写入磁盘

2025-03-18 08:54:00

admin

原创

摘要：问题描述：我在 S3 上保存了一个文本文件，它是一个制表符分隔的表格。我想将其加载到 pandas 中，但由于我在 heroku 服务器上运行，因此无法先保存它。以下是我目前所拥有的。import io import boto3 import os import pandas as pd os.enviro...

问题描述：

我在 S3 上保存了一个文本文件，它是一个制表符分隔的表格。我想将其加载到 pandas 中，但由于我在 heroku 服务器上运行，因此无法先保存它。以下是我目前所拥有的。

import io
import boto3
import os
import pandas as pd

os.environ["AWS_ACCESS_KEY_ID"] = "xxxxxxxx"
os.environ["AWS_SECRET_ACCESS_KEY"] = "xxxxxxxx"

s3_client = boto3.client('s3')
response = s3_client.get_object(Bucket="my_bucket",Key="filename.txt")
file = response["Body"]


pd.read_csv(file, header=14, delimiter="    ", low_memory=False)

错误是

OSError: Expected file path name or file-like object, got <class 'bytes'> type

如何将响应主体转换为 Pandas 可以接受的格式？

pd.read_csv(io.StringIO(file), header=14, delimiter="    ", low_memory=False)

returns

TypeError: initial_value must be str or None, not StreamingBody

pd.read_csv(io.BytesIO(file), header=14, delimiter="    ", low_memory=False)

returns

TypeError: 'StreamingBody' does not support the buffer interface

更新-使用以下方法有效

file = response["Body"].read()

和

pd.read_csv(io.BytesIO(file), header=14, delimiter="    ", low_memory=False)

解决方案 1：

pandas使用botofor read_csv，因此您应该能够：

import boto
data = pd.read_csv('s3://bucket....csv')

如果你需要boto3，因为你在python3.4+，你可以

import boto3
import io
s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucket', Key='key')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

自0.20.1 版本 pandas使用以来s3fs，请参阅下面的答案。

解决方案 2：

现在pandas 可以处理 S3 URL 了。你可以简单地执行以下操作：

import pandas as pd
import s3fs

df = pd.read_csv('s3://bucket-name/file.csv')

s3fs如果您没有，则需要安装。pip install s3fs

验证

如果您的 S3 存储桶是私有的并且需要身份验证，则您有两种选择：

1- 将访问凭证添加到您的~/.aws/credentials配置文件

[default]
aws_access_key_id=AKIAIOSFODNN7EXAMPLE
aws_secret_access_key=wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY

或者

2- 设置以下环境变量及其适当的值：

aws_access_key_id
aws_secret_access_key
aws_session_token

解决方案 3：

最新的 Pandas 现已支持此功能。请参阅

http://pandas.pydata.org/pandas-docs/stable/io.html#reading-remote-files

例如。，

df = pd.read_csv('s3://pandas-test/tips.csv')

解决方案 4：

对于 Python 3.6+，Amazon 现在有一个非常好的库可以将 Pandas 与其服务一起使用，称为awswrangler。

import awswrangler as wr
import boto3


# Boto3 session
session = boto3.session.Session(aws_access_key_id='XXXX', 
                                aws_secret_access_key='XXXX')

# Awswrangler pass forward all pd.read_csv() function args
df = wr.s3.read_csv(path='s3://bucket/path/',
                    boto3_session=session,
                    skiprows=2,
                    sep=';',
                    decimal=',',
                    na_values=['--'])

要安装 awswrangler：pip install awswrangler

解决方案 5：

使用s3fs可以按如下方式完成：

import s3fs
import pandas as pd
fs = s3fs.S3FileSystem(anon=False)

# CSV
with fs.open('mybucket/path/to/object/foo.pkl') as f:
    df = pd.read_csv(f)

# Pickle
with fs.open('mybucket/path/to/object/foo.pkl') as f:
    df = pd.read_pickle(f)

解决方案 6：

由于文件可能太大，将它们全部加载到数据框中并不明智。因此，逐行读取并将其保存在数据框中。是的，我们也可以在 read_csv 中提供块大小，但我们必须维护读取的行数。

因此我想出了这个工程：

def create_file_object_for_streaming(self):
        print("creating file object for streaming")
        self.file_object = self.bucket.Object(key=self.package_s3_key)
        print("File object is: " + str(self.file_object))
        print("Object file created.")
        return self.file_object

for row in codecs.getreader(self.encoding)(self.response[u'Body']).readlines():
            row_string = StringIO(row)
            df = pd.read_csv(row_string, sep=",")

一旦工作完成，我也会删除 df。
del df

解决方案 7：

对于文本文件，您可以将以下代码与竖线分隔的文件一起使用，例如：-

import pandas as pd
import io
import boto3
s3_client = boto3.client('s3', use_ssl=False)
bucket = #
prefix = #
obj = s3_client.get_object(Bucket=bucket, Key=prefix+ filename)
df = pd.read_fwf((io.BytesIO(obj['Body'].read())) , encoding= 'unicode_escape', delimiter='|', error_bad_lines=False,header=None, dtype=str)

解决方案 8：

import s3fs
import pandas as pd
s3 = s3fs.S3FileSystem(profile='<profile_name>')
pd.read_csv(s3.open(<s3_path>))

解决方案 9：

import os
import pandas as pd
import boto3

session = boto3.Session(profile_name="test")

os.environ['AWS_ACCESS_KEY_ID'] = session.get_credentials().access_key
os.environ['AWS_SECRET_ACCESS_KEY'] = session.get_credentials().secret_key

这样，您就可以使用存储在 ~/.aws/credentials 中的任何配置文件（AWS 帐户）

df = pd.read_csv("s3://xxxx.csv")

解决方案 10：

一种选择是将 csv 转换为 json df.to_dict()，然后将其存储为字符串。请注意，这仅在不需要 CSV 而只想快速将数据框放入 S3 存储桶并再次检索时才有意义。

from boto.s3.connection import S3Connection
import pandas as pd
import yaml

conn = S3Connection()
mybucket = conn.get_bucket('mybucketName')
myKey = mybucket.get_key("myKeyName")

myKey.set_contents_from_string(str(df.to_dict()))

这会将 df 转换为 dict 字符串，然后将其作为 json 保存在 S3 中。您稍后可以以相同的 json 格式读取它：

df = pd.DataFrame(yaml.load(myKey.get_contents_as_string()))

其他解决方案也不错，但这个更简单一些。Yaml 可能不是必需的，但您需要一些东西来解析 json 字符串。如果 S3 文件不一定需要是 CSV，这可以快速修复。