可以在 Python 中重置迭代器吗?[重复]

2025-03-18 08:55:00
admin
原创
44
摘要:问题描述:我可以在 Python 中重置迭代器/生成器吗?我正在使用 DictReader,想将其重置为文件的开头。解决方案 1:我看到很多答案建议使用itertools.tee,但这忽略了文档中的一个关键警告:此 itertool 可能需要大量辅助存储(取决于需要存储多少临时数据)。一般来说,如果一个迭代器...

问题描述:

我可以在 Python 中重置迭代器/生成器吗?我正在使用 DictReader,想将其重置为文件的开头。


解决方案 1:

我看到很多答案建议使用itertools.tee,但这忽略了文档中的一个关键警告:

此 itertool 可能需要大量辅助存储(取决于需要存储多少临时数据)。一般来说,如果一个迭代器在另一个迭代器启动之前使用大部分或全部数据,则使用 会list()比更快tee()

基本上,tee它是为以下情况而设计的:一个迭代器的两个(或更多)克隆虽然彼此“不同步”,但同步程度并不大——相反,它们位于相同的“邻近”位置(彼此前后几个项目)。不适用于 OP 的“从头开始重做”问题。

L = list(DictReader(...))另一方面,只要字典列表能够轻松放入内存中, 就非常合适。 可以随时使用 创建新的“从头开始的迭代器”(非常轻量且开销低),并iter(L)部分或全部使用,而不会影响新的或现有的迭代器;其他访问模式也很容易获得。

正如几个答案正确指出的那样,在特定情况下,csv您还可以使用.seek(0)底层文件对象(一种相当特殊的情况)。我不确定这是否有记录和保证,尽管它目前确实有效;它可能只适用于真正巨大的 csv 文件,在这种情况下,list我建议作为一般方法的内存占用太大。

解决方案 2:

如果你有一个名为“blah.csv”的 csv 文件,它看起来像

a,b,c,d
1,2,3,4
2,3,4,5
3,4,5,6

你知道你可以打开文件进行阅读,并创建一个 DictReader

blah = open('blah.csv', 'r')
reader= csv.DictReader(blah)

然后,你将能够使用 获得下一行reader.next(),该行应输出

{'a':1,'b':2,'c':3,'d':4}

再次使用将产生

{'a':2,'b':3,'c':4,'d':5}

但是,此时如果你使用blah.seek(0),下次调用时reader.next()你将得到

{'a':1,'b':2,'c':3,'d':4}

再次。

这似乎就是您正在寻找的功能。我确信这种方法有一些我不知道的技巧。@Brian 建议简单地创建另一个 DictReader。如果您的第一个读取器正在读取文件的一半,这将不起作用,因为您的新读取器将具有来自文件中任何位置的意外键和值。

解决方案 3:

不。Python 的迭代器协议非常简单,并且只提供了一种方法(.next()__next__()),并且没有通常重置迭代器的方法。

常见的模式是再次使用相同的过程创建一个新的迭代器。

如果你想“保存”一个迭代器,以便可以回到它的开头,你也可以使用itertools.tee

解决方案 4:

是的,如果您使用它numpy.nditer来构建迭代器。

>>> lst = [1,2,3,4,5]
>>> itr = numpy.nditer([lst])
>>> itr.next()
1
>>> itr.next()
2
>>> itr.finished
False
>>> itr.reset()
>>> itr.next()
1

解决方案 5:

.seek(0)上面 Alex Martelli 和 Wilduck 提倡使用 时,有一个错误,即下一次调用.next()将以 的形式为您提供标题行的字典{key1:key1, key2:key2, ...}。解决方法是随后调用file.seek(0)reader.next()删除标题行。

因此你的代码看起来应该是这样的:

f_in = open('myfile.csv','r')
reader = csv.DictReader(f_in)

for record in reader:
    if some_condition:
        # reset reader to first row of data on 2nd line of file
        f_in.seek(0)
        reader.next()
        continue
    do_something(record)

解决方案 6:

这可能与原始问题正交,但可以将迭代器包装在返回迭代器的函数中。

def get_iter():
    return iterator

要重置迭代器,只需再次调用该函数即可。当然,如果该函数不带参数,则这很简单。

如果函数需要一些参数,请使用 functools.partial 创建一个可以传递的闭包来代替原始迭代器。

def get_iter(arg1, arg2):
   return iterator
from functools import partial
iter_clos = partial(get_iter, a1, a2)

这似乎避免了 tee(n 个副本)或 list(1 个副本)需要执行的缓存

解决方案 7:

对于小文件,您可以考虑使用more_itertools.seekable提供重置可迭代对象的第三方工具。

演示

import csv

import more_itertools as mit


filename = "data/iris.csv"
with open(filename, "r") as f:
    reader = csv.DictReader(f)
    iterable = mit.seekable(reader)                    # 1
    print(next(iterable))                              # 2
    print(next(iterable))
    print(next(iterable))

    print("
Reset iterable
--------------")
    iterable.seek(0)                                   # 3
    print(next(iterable))
    print(next(iterable))
    print(next(iterable))

输出

{'Sepal width': '3.5', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '5.1', 'Species': 'Iris-setosa'}
{'Sepal width': '3', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '4.9', 'Species': 'Iris-setosa'}
{'Sepal width': '3.2', 'Petal width': '0.2', 'Petal length': '1.3', 'Sepal length': '4.7', 'Species': 'Iris-setosa'}

Reset iterable
--------------
{'Sepal width': '3.5', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '5.1', 'Species': 'Iris-setosa'}
{'Sepal width': '3', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '4.9', 'Species': 'Iris-setosa'}
{'Sepal width': '3.2', 'Petal width': '0.2', 'Petal length': '1.3', 'Sepal length': '4.7', 'Species': 'Iris-setosa'}

这里 aDictReader被包装在一个seekable对象中(1)并且是高级的(2)。该seek()方法用于将迭代器重置/倒回到第 0 个位置(3)。

注意:内存消耗会随着迭代而增加,因此请谨慎将此工具应用于大文件,如文档中所示。

解决方案 8:

一个可能的选择是使用itertools.cycle(),它将允许您无限期地进行迭代,而无需任何技巧.seek(0)

iterDic = itertools.cycle(csv.DictReader(open('file.csv')))

解决方案 9:

虽然没有迭代器重置,但 Python 2.6(及更高版本)中的“itertools”模块有一些实用程序可以提供帮助。其中之一是“tee”,它可以制作迭代器的多个副本,并缓存前面运行的迭代器的结果,以便这些结果可用于副本。我将满足您的目的:

>>> def printiter(n):
...   for i in xrange(n):
...     print "iterating value %d" % i
...     yield i

>>> from itertools import tee
>>> a, b = tee(printiter(5), 2)
>>> list(a)
iterating value 0
iterating value 1
iterating value 2
iterating value 3
iterating value 4
[0, 1, 2, 3, 4]
>>> list(b)
[0, 1, 2, 3, 4]

解决方案 10:

在“iter()”调用期间的最后一次迭代中返回新创建的迭代器

class ResetIter: 
  def __init__(self, num):
    self.num = num
    self.i = -1

  def __iter__(self):
    if self.i == self.num-1: # here, return the new object
      return self.__class__(self.num) 
    return self

  def __next__(self):
    if self.i == self.num-1:
      raise StopIteration

    if self.i <= self.num-1:
      self.i += 1
      return self.i


reset_iter = ResetRange(10)
for i in reset_iter:
  print(i, end=' ')
print()

for i in reset_iter:
  print(i, end=' ')
print()

for i in reset_iter:
  print(i, end=' ')

输出:

0 1 2 3 4 5 6 7 8 9 
0 1 2 3 4 5 6 7 8 9 
0 1 2 3 4 5 6 7 8 9 

解决方案 11:

对于DictReader:

f = open(filename, "rb")
d = csv.DictReader(f, delimiter=",")

f.seek(0)
d.__init__(f, delimiter=",")

对于 DictWriter:

f = open(filename, "rb+")
d = csv.DictWriter(f, fieldnames=fields, delimiter=",")

f.seek(0)
f.truncate(0)
d.__init__(f, fieldnames=fields, delimiter=",")
d.writeheader()
f.flush()

解决方案 12:

list(generator())返回生成器的所有剩余值,并且如果未循环则有效地重置它。

解决方案 13:

我遇到了同样的问题——虽然我喜欢这个tee()解决方案,但我不知道我的文件会有多大,而且关于先消耗一个文件再消耗另一个文件的内存警告让我不愿意采用该方法。

相反,我使用iter()语句创建一对迭代器,并使用第一个迭代器进行初始运行,然后切换到第二个迭代器进行最后的运行。

因此,对于字典阅读器来说,如果使用以下命令定义阅读器:

d = csv.DictReader(f, delimiter=",")

我可以根据这个“规范”创建一对迭代器 - 使用:

d1, d2 = iter(d), iter(d)

然后我可以运行我的第一遍代码d1,因为我知道第二个迭代器d2是根据相同的根规范定义的,所以很安全。

我还没有进行详尽的测试,但它似乎可以处理虚拟数据。

解决方案 14:

仅当基础类型提供这样做的机制时(例如fp.seek(0))。

解决方案 15:

最简单的解决方案:使用 deepcopy

from copy import deepcopy
iterator = your_iterator

# Start iteration
iterator_altered = deepcopy(iterator)
for _ in range(2):
    a = next(iter(iterator_altered))

# Your iterator is still unaltered. 

我认为这是最简单的方法。

相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2482  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1533  
  PLM(产品生命周期管理)项目对于企业优化产品研发流程、提升产品质量以及增强市场竞争力具有至关重要的意义。然而,在项目推进过程中,范围蔓延是一个常见且棘手的问题,它可能导致项目进度延迟、成本超支以及质量下降等一系列不良后果。因此,有效避免PLM项目范围蔓延成为项目成功的关键因素之一。以下将详细阐述三大管控策略,助力企业...
plm系统   0  
  PLM(产品生命周期管理)项目管理在企业产品研发与管理过程中扮演着至关重要的角色。随着市场竞争的加剧和产品复杂度的提升,PLM项目面临着诸多风险。准确量化风险优先级并采取有效措施应对,是确保项目成功的关键。五维评估矩阵作为一种有效的风险评估工具,能帮助项目管理者全面、系统地评估风险,为决策提供有力支持。五维评估矩阵概述...
免费plm软件   0  
  引言PLM(产品生命周期管理)开发流程对于企业产品的全生命周期管控至关重要。它涵盖了从产品概念设计到退役的各个阶段,直接影响着产品质量、开发周期以及企业的市场竞争力。在当今快速发展的科技环境下,客户对产品质量的要求日益提高,市场竞争也愈发激烈,这就使得优化PLM开发流程成为企业的必然选择。缺陷管理工具和六西格玛方法作为...
plm产品全生命周期管理   0  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用