Python numpy 数组的内存使用情况-IT科技

Python numpy 数组的内存使用情况

2025-03-18 08:54:00

admin

原创

摘要：问题描述：我正在使用 python 分析一些大型文件，但遇到了内存问题，因此我一直在使用 sys.getsizeof() 来尝试跟踪使用情况，但它对 numpy 数组的行为很奇怪。下面是一个涉及我必须打开的反照率图的示例：>>> import numpy as np >>>...

问题描述：

我正在使用 python 分析一些大型文件，但遇到了内存问题，因此我一直在使用 sys.getsizeof() 来尝试跟踪使用情况，但它对 numpy 数组的行为很奇怪。下面是一个涉及我必须打开的反照率图的示例：

>>> import numpy as np
>>> import struct
>>> from sys import getsizeof
>>> f = open('Albedo_map.assoc', 'rb')
>>> getsizeof(f)
144
>>> albedo = struct.unpack('%df' % (7200*3600), f.read(7200*3600*4))
>>> getsizeof(albedo)
207360056
>>> albedo = np.array(albedo).reshape(3600,7200)
>>> getsizeof(albedo)
80

好吧，数据仍然存在，但对象的大小（3600x7200 像素地图）已从约 200 Mb 变为 80 字节。我希望我的内存问题已经解决，只需将所有内容转换为 numpy 数组，但我觉得这种行为（如果属实）会在某种程度上违反信息论或热力学的某些定律，所以我倾向于相信 getsizeof() 不适用于 numpy 数组。有什么想法吗？

解决方案 1：

您可以使用array.nbytesnumpy 数组，例如：

import numpy as np
from sys import getsizeof
a = [0] * 1024
b = np.array(a)
print(getsizeof(a))
print(b.nbytes)

输出：

8264
8192

解决方案 2：

字段nbytes将为您提供数组中所有元素的字节大小numpy.array：

size_in_bytes = my_numpy_array.nbytes

请注意，这并不测量“数组对象的非元素属性”，因此实际大小（以字节为单位）可能比这大几个字节。

解决方案 3：

为了给接受的答案添加更多内容，总结并提供更透明的内存示例（注意int8是一个字节）：

import numpy as np
from sys import getsizeof
a = np.ones(shape=(1000, 1), dtype='int8')
b = a.T 
a.nbytes, getsizeof(a), b.nbytes, getsizeof(b), getsizeof(b.base)

将产生以下输出：

(1000, 1128, 1000, 128, 1128)

a.nbytes= 1000：给出数值元素的大小：1000 个数值元素。
getsizeof(a) = 1128：给出数值元素和参考机械的尺寸。
b.nbtyes：数值元素的大小与内存位置无关（不受b的视图状态影响）
getsizeof(b) = 128：仅计算参考机械的尺寸，它受到视图状态的影响。
getsizeof(b.base) = 1128：这将独立于视图状态计算数值元素加上参考机制的大小。

总结：如果您想知道数值元素的大小，array.nbytes那么无论是否有视图，它都可以正常工作。另一方面，如果您想要数值元素的大小加上整个参考机制，那么您需要使用它getsizeof(array.base)来获得可靠的估计值，而不管您的视图状态如何。

解决方案 4：

在 python 笔记本中，我经常想要过滤掉“悬空”的numpy.ndarray内容，特别是那些存储在_1、等中的_2、本来就不应该保留的内容。

我使用此代码来获取所有这些及其大小的列表。

不确定这里是否locals()更好globals()。

import sys
import numpy
from humanize import naturalsize

for size, name in sorted(
    (value.nbytes, name)
    for name, value in locals().items()
    if isinstance(value, numpy.ndarray)):
  print("{:>30}: {:>8}".format(name, naturalsize(size)))

问题描述：

解决方案 1：

解决方案 2：

解决方案 3：

解决方案 4：

云端的项目管理软件