解析包含纳秒的日期时间字符串-IT科技

解析包含纳秒的日期时间字符串

2025-03-05 09:17:00

admin

原创

摘要：问题描述：我有一些日志文件，其时间格式为 HH:MM::SS.nano_seconds（例如 01:02:03.123456789）。我想在 Python 中创建一个日期时间，以便能够巧妙地计算时间（例如计算时间差）。使用 %f，strptime 可以很好地计算微秒。Python 的日期时间和时间模块真的不支...

问题描述：

我有一些日志文件，其时间格式为 HH:MM::SS.nano_seconds（例如 01:02:03.123456789）。我想在 Python 中创建一个日期时间，以便能够巧妙地计算时间（例如计算时间差）。使用 %f，strptime 可以很好地计算微秒。Python 的日期时间和时间模块真的不支持纳秒吗？

解决方案 1：

您可以从源中看到，datetime对象不支持比微秒更精细的单位。正如 Mike Pennington 在评论中指出的那样，这可能是因为计算机硬件时钟远没有那么精确。维基百科说HPET的频率“至少为 10 MHz”，这意味着每 100 纳秒一个刻度。

如果您可以忍受丢弃最后三位数字（这可能无论如何都不太有意义），那么您可以通过将输入字符串切片为小数点后只有六位数字并使用进行解析来解析它%f。否则，看起来您必须自己实现减法。

后来更新：numpy 和 pandas 现在都支持（略有不同）时间戳，包括跟踪纳秒的可能性，这通常是很好的解决方案。请参阅其他答案以了解如何操作。

Python 3.7+time.time_ns中也有相关函数time（PEP 564），但仍然不支持纳秒datetime。

解决方案 2：

这是一个老话题，但是仍然...

您可以使用 Pandas 功能来实现这一点。我有像 '2019-03-22T14:00:01.700311864Z' 这样的时间戳，我通过以下方式将其转换为时间戳：

    firstStamp = pd.to_datetime(firstStampString, format='%Y-%m-%dT%H:%M:%S.%fZ')
    lastStamp = pd.to_datetime(lastStampString, format='%Y-%m-%dT%H:%M:%S.%fZ')

    deltaTime = lastStamp - firstStamp

这很好用。

解决方案 3：

您可以很自然地使用纳秒甚至更精确的时间单位（ps，fs，as）numpy。 Numpy 有自己的Datetimes 和 Timedeltas实现，因此您可以尝试np.datetime64：

import numpy as np
def str_to_ns(time_str):
     """
     input: time in a format `hh:mm:ss.up_to_9_digits`
     """
     h, m, s = time_str.split(":")
     int_s, ns = s.split(".")
     ns = map(lambda t, unit: np.timedelta64(t, unit),
              [h,m,int_s,ns.ljust(9, '0')],['h','m','s','ns'])
     return sum(ns)

然后您可以按照下列方式使用此功能：

>>> src = "1:2:34.123456789"
>>> out = str_to_ns(src)
>>> print(out)
3754123456789 nanoseconds
>>> out / np.timedelta64(1,'h')
1.0428120713302778
>>> out / np.timedelta64(1,'m')
62.568724279816664
>>> out / np.timedelta64(1,'s')
3754.123456789

算术也是可能的：

>>> t1, t2 = str_to_ns("1:0:12.12345678"), str_to_ns("1:0:12.12")
>>> t1 - t2
numpy.timedelta64(3456780,'ns')

我同意这不是那么自然，但通过这种方式，您只需即可实现任意高时间精度numpy。

解决方案 4：

如果您实际上并不关心纳秒，但仍希望能够解析秒数大于 6 位小数的日期时间，则可以使用python-dateutils库。

例如，尝试使用标准 lib datetime 包：

>>> from datetime import datetime
>>> datetime.strptime('2021-02-14T02:27:57.96119078Z', '%Y-%m-%dT%H:%M:%S.%fZ')
ValueError: time data '2021-02-14T02:27:57.96119078Z' does not match format '%Y-%m-%dT%H:%M:%S.%fZ'

但是使用 python-dateutils，它实际上可以解析它而不会引发错误：

>>> from dateutil.parser import isoparse
>>> isoparse('2021-02-14T02:27:57.96119078Z')
datetime.datetime(2021, 2, 14, 2, 27, 57, 961190, tzinfo=tzutc())

请注意，它不会保留纳秒（也不会正确舍入 - 它只是在小数点后 6 位截断），但至少不会破坏对>6 位小数的解析。

解决方案 5：

def parse_nanodate(s):
  """
  parse date, ignore nanoseconds
  sample input: 2020-12-31T16:20:00.000000123Z
  --> 123ns will be ignored
  """
  if s[-1] == 'Z':
    # add explicit UTC timezone, to make strptime happy
    s += '+0000'
  return datetime.datetime.strptime(
    s[0:26]+s[29:], '%Y-%m-%dT%H:%M:%S.%fZ%z')

解决方案 6：

我可以通过正则表达式替换删除第 6 位之后的任何数字：

def parse_nanosecond_ts(ts):
ts = re.sub(
    r"^([^ ]+ [0-9]+:[0-9]+:[0-9]+.[0-9]{0,6})[0-9]*( .*)$",
    "\\1\\2",
    ts,
)
return datetime.datetime.strptime(ts, 
     "%Y-%m-%d %H:%M:%S.%f %z %Z")