如何将原始 javascript 对象转换为字典?

2025-02-28 08:22:00
admin
原创
64
摘要:问题描述:当我对某个网站进行屏幕抓取时,我从<script>标签中提取数据。 我得到的数据不是标准JSON格式。我无法使用json.loads()。# from js_obj = '{x:1, y:2, z:3}' # to py_obj = {'x':1, 'y':2, 'z':3} 目前我...

问题描述:

当我对某个网站进行屏幕抓取时,我从<script>标签中提取数据。

我得到的数据不是标准JSON格式。我无法使用json.loads()

# from
js_obj = '{x:1, y:2, z:3}'

# to
py_obj = {'x':1, 'y':2, 'z':3}

目前我习惯regex将原始数据转换为JSON格式,

但遇到复杂的数据结构时就感觉很麻烦。

您有更好的解决方案吗?


解决方案 1:

demjson.decode()

import demjson

# from
js_obj = '{x:1, y:2, z:3}'

# to
py_obj = demjson.decode(js_obj)

chompjs.parse_js_object()

import chompjs

# from
js_obj = '{x:1, y:2, z:3}'

# to
py_obj = chompjs.parse_js_object(js_obj)

jsonnet.evaluate_snippet()

import json, _jsonnet

# from
js_obj = '{x:1, y:2, z:3}'

# to
py_obj = json.loads(_jsonnet.evaluate_snippet('snippet', js_obj))

ast.literal_eval()

import ast

# from
js_obj = "{'x':1, 'y':2, 'z':3}"

# to
py_obj = ast.literal_eval(js_obj)

解决方案 2:

使用json5

import json5

js_obj = '{x:1, y:2, z:3}'

py_obj = json5.loads(js_obj)

print(py_obj)

# output
# {'x': 1, 'y': 2, 'z': 3}

解决方案 3:

今天下午我也遇到了同样的问题,最后找到了一个相当不错的解决方案。那就是JSON5。

JSON5的语法与原生JavaScript更加相似,因此它可以帮助您解析非标准的JSON对象。

您可能想要检查一下pyjson5。

解决方案 4:

node如果系统上有可用资源,您可以要求它为您评估 javascript 表达式,并打印字符串化结果。然后可以将生成的 JSON 输入到json.loads

def evaluate_javascript(s):
    """Evaluate and stringify a javascript expression in node.js, and convert the
    resulting JSON to a Python object"""
    node = Popen(['node', '-'], stdin=PIPE, stdout=PIPE)
    stdout, _ = node.communicate(f'console.log(JSON.stringify({s}))'.encode('utf8'))
    return json.loads(stdout.decode('utf8'))

解决方案 5:

这可能不会在任何地方都有效,但作为开始,这里有一个简单的正则表达式,它应该将键转换为带引号的字符串,以便您可以传递到 json.loads。或者这就是您已经在做的事情?

In[70] : quote_keys_regex = r'([{s,])(w+)(:)'

In[71] : re.sub(quote_keys_regex, r'""', js_obj)
Out[71]: '{"x":1, "y":2, "z":3}'

In[72] : js_obj_2 = '{x:1, y:2, z:{k:3,j:2}}'

Int[73]: re.sub(quote_keys_regex, r'""', js_obj_2)
Out[73]: '{"x":1, "y":2, "z":{"k":3,"j":2}}'

解决方案 6:

不包括物体

json.loads()

  • json.loads()不接受未定义,你必须更改为null

  • json.loads() 接受双引号

+ `{"foo": 1, "bar": null}`

如果您确定您的 javascript 代码仅在键名上有双引号,请使用此功能。

import json

json_text = """{"foo": 1, "bar": undefined}"""
json_text = re.sub(r'("s*:s*)undefined(s*[,}])', '\\1null\\2', json_text)

py_obj = json.loads(json_text)

ast.literal_eval()

  • ast.literal_eval()不接受未定义,你必须更改为None

  • ast.literal_eval()不接受null,您必须更改为None

  • ast.literal_eval()不接受true,你必须更改为True

  • ast.literal_eval()不接受false,你必须更改为False

  • ast.literal_eval()接受单引号和双引号

+ `{"foo": 1, "bar": None}`或者`{'foo': 1, 'bar': None}`
import ast

js_obj = """{'foo': 1, 'bar': undefined}"""
js_obj = re.sub(r'([\'\"]s*:s*)undefined(s*[,}])', '\\1None\\2', js_obj)
js_obj = re.sub(r'([\'\"]s*:s*)null(s*[,}])', '\\1None\\2', js_obj)
js_obj = re.sub(r'([\'\"]s*:s*)NaN(s*[,}])', '\\1None\\2', js_obj)
js_obj = re.sub(r'([\'\"]s*:s*)true(s*[,}])', '\\1True\\2', js_obj)
js_obj = re.sub(r'([\'\"]s*:s*)false(s*[,}])', '\\1False\\2', js_obj)

py_obj = ast.literal_eval(js_obj) 

解决方案 7:

这里的一些答案已经过时了,所以这里是 json5、hjson 和 chompjs 之间的速度比较。(ast.literal_eval 和 json.loads 失败)。在 1 MB js 对象上评估函数以获得良好的样本。所有 3 次成功都产生了相同的字典。

#   100.00% - reference time
chompjs.parse_js_object(text)

#   666.65% - 7 times slower
hjson.loads(text)

# 60460.57% - 605 times slower
json5.loads(text)

# fail
ast.literal_eval(text)
json.loads(text)

# won't install on Python 3.11.9
demjson
jsonnet
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2911  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1774  
  PLM(产品生命周期管理)系统在企业的产品研发、生产与管理过程中扮演着至关重要的角色。然而,在实际运行中,资源冲突是经常会遇到的难题。资源冲突可能导致项目进度延迟、成本增加以及产品质量下降等一系列问题,严重影响企业的效益与竞争力。因此,如何有效应对PLM系统中的资源冲突,成为众多企业关注的焦点。接下来,我们将详细探讨5...
plm项目管理系统   0  
  敏捷项目管理与产品生命周期管理(PLM)的融合,正成为企业在复杂多变的市场环境中提升研发效率、增强竞争力的关键举措。随着技术的飞速发展和市场需求的快速更迭,传统的研发流程面临着诸多挑战,而将敏捷项目管理理念融入PLM,有望在2025年实现研发流程的深度优化,为企业创造更大的价值。理解敏捷项目管理与PLM的核心概念敏捷项...
plm项目   0  
  模块化设计在现代产品开发中扮演着至关重要的角色,它能够提升产品开发效率、降低成本、增强产品的可维护性与可扩展性。而产品生命周期管理(PLM)系统作为整合产品全生命周期信息的关键平台,对模块化设计有着强大的支持能力。随着技术的不断发展,到 2025 年,PLM 系统在支持模块化设计方面将有一系列令人瞩目的技术实践。数字化...
plm软件   0  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用