Python numpy 数组的内存使用情况
- 2025-03-18 08:54:00
- admin 原创
- 54
问题描述:
我正在使用 python 分析一些大型文件,但遇到了内存问题,因此我一直在使用 sys.getsizeof() 来尝试跟踪使用情况,但它对 numpy 数组的行为很奇怪。下面是一个涉及我必须打开的反照率图的示例:
>>> import numpy as np
>>> import struct
>>> from sys import getsizeof
>>> f = open('Albedo_map.assoc', 'rb')
>>> getsizeof(f)
144
>>> albedo = struct.unpack('%df' % (7200*3600), f.read(7200*3600*4))
>>> getsizeof(albedo)
207360056
>>> albedo = np.array(albedo).reshape(3600,7200)
>>> getsizeof(albedo)
80
好吧,数据仍然存在,但对象的大小(3600x7200 像素地图)已从约 200 Mb 变为 80 字节。我希望我的内存问题已经解决,只需将所有内容转换为 numpy 数组,但我觉得这种行为(如果属实)会在某种程度上违反信息论或热力学的某些定律,所以我倾向于相信 getsizeof() 不适用于 numpy 数组。有什么想法吗?
解决方案 1:
您可以使用array.nbytes
numpy 数组,例如:
import numpy as np
from sys import getsizeof
a = [0] * 1024
b = np.array(a)
print(getsizeof(a))
print(b.nbytes)
输出:
8264
8192
解决方案 2:
字段nbytes将为您提供数组中所有元素的字节大小numpy.array
:
size_in_bytes = my_numpy_array.nbytes
请注意,这并不测量“数组对象的非元素属性”,因此实际大小(以字节为单位)可能比这大几个字节。
解决方案 3:
为了给接受的答案添加更多内容,总结并提供更透明的内存示例(注意int8
是一个字节):
import numpy as np
from sys import getsizeof
a = np.ones(shape=(1000, 1), dtype='int8')
b = a.T
a.nbytes, getsizeof(a), b.nbytes, getsizeof(b), getsizeof(b.base)
将产生以下输出:
(1000, 1128, 1000, 128, 1128)
a.nbytes
= 1000:给出数值元素的大小:1000 个数值元素。getsizeof(a) = 1128
:给出数值元素和参考机械的尺寸。b.nbtyes
:数值元素的大小与内存位置无关(不受b的视图状态影响)getsizeof(b) = 128
:仅计算参考机械的尺寸,它受到视图状态的影响。getsizeof(b.base) = 1128
:这将独立于视图状态计算数值元素加上参考机制的大小。
总结:如果您想知道数值元素的大小,array.nbytes
那么无论是否有视图,它都可以正常工作。另一方面,如果您想要数值元素的大小加上整个参考机制,那么您需要使用它getsizeof(array.base)
来获得可靠的估计值,而不管您的视图状态如何。
解决方案 4:
在 python 笔记本中,我经常想要过滤掉“悬空”的numpy.ndarray
内容,特别是那些存储在_1
、等中的_2
、本来就不应该保留的内容。
我使用此代码来获取所有这些及其大小的列表。
不确定这里是否locals()
更好globals()
。
import sys
import numpy
from humanize import naturalsize
for size, name in sorted(
(value.nbytes, name)
for name, value in locals().items()
if isinstance(value, numpy.ndarray)):
print("{:>30}: {:>8}".format(name, naturalsize(size)))
扫码咨询,免费领取项目管理大礼包!