我怎样才能逃避通过用户输入收到的乳胶代码？-IT科技

我怎样才能逃避通过用户输入收到的乳胶代码？

2025-04-10 09:45:00

admin

原创

摘要：问题描述：我从用户输入的 GUI 文本框中读取一个字符串并通过pandoc对其进行处理。该字符串包含用于数学的 latex 指令，其中有反斜杠字符。我想将字符串作为原始字符串发送到 pandoc 进行处理。但像“\theta”这样的字符串变成了制表符和“heta”。如何将包含反斜杠字符的字符串文字转换为原始字...

问题描述：

我从用户输入的 GUI 文本框中读取一个字符串并通过pandoc对其进行处理。该字符串包含用于数学的 latex 指令，其中有反斜杠字符。我想将字符串作为原始字符串发送到 pandoc 进行处理。但像“\theta”这样的字符串变成了制表符和“heta”。

如何将包含反斜杠字符的字符串文字转换为原始字符串……？

编辑：

感谢 develerx、flying sheep 和 unutbu。但这些解决方案似乎都对我没用。原因是还有其他反斜杠字符在 python 中没有任何作用，但在 latex 中却有意义。

例如 '\lambda'。建议的所有方法都会产生

\\lambda

它不经过乳胶处理 - 它应该保留为 \lambda。

另一项编辑：

如果我能完成这项工作，我想我就完成了。@Mark：所有这三种方法都给出了我不想要的答案。

a='
u + lambda +     heta'; 
b=a.replace(r"\\\",r"\\\\\"); 
c='%r' %a; 
d=a.encode('string_escape');
print a

u + lambda +   heta
print b

u + lambda +   heta
print c
'
u + \\lambda +     heta'
print d

u + \\lambda +     heta

解决方案 1：

Python 的原始字符串只是告诉 Python 解释器应该将反斜杠解释为文字斜杠的一种方式。如果您读取用户输入的字符串，它们已经超出了原始字符串的范围。此外，用户输入最有可能是按字面意思读取的，即“原始”。

这意味着解释发生在其他地方。但是如果你知道它会发生，为什么不对解释它的程序的反斜杠进行转义呢？

s = s.replace("\\\", "\\\\\")

（请注意，您不能r""这样做， “原始字符串不能以单个反斜杠结尾”，但我也可以将r"\"其用于第二个参数。）

如果这不起作用，则说明您的用户输入由于某种神秘的原因解释了反斜杠，因此您需要一种方法来告诉它停止这种做法。

解决方案 2：

如果要将现有字符串转换为原始字符串，我们可以像下面这样重新分配

s1 = "welcome    to    Python"
raw_s1 = "%r"%s1
print(raw_s1)

将打印

welcome    to    Python

解决方案 3：

a='
u + lambda +     heta'
d=a.encode('string_escape').replace('\\\\','\\')
print(d)
# 
u + lambda +     heta

n这表明，在,l和之前有一个反斜杠t：

print(list(d))
# ['\\', 'n', 'u', ' ', '+', ' ', '\\', 'l', 'a', 'm', 'b', 'd', 'a', ' ', '+', ' ', '\\', 't', 'h', 'e', 't', 'a']

您的 GUI 出现了一些奇怪的问题。下面是一个通过抓取用户输入的简单示例。请注意，检索到的文本在、和Tkinter.Entry之前只有一个反斜杠。因此不需要进行额外处理：n`l`t

import Tkinter as tk

def callback():
    print(list(text.get()))

root = tk.Tk()
root.config()

b = tk.Button(root, text="get", width=10, command=callback)

text=tk.StringVar()

entry = tk.Entry(root,textvariable=text)
b.pack(padx=5, pady=5)
entry.pack(padx=5, pady=5)
root.mainloop()

如果你`
u + lambda + heta`在输入框中输入，控制台将（正确地）打印：

['\\', 'n', 'u', ' ', '+', ' ', '\\', 'l', 'a', 'm', 'b', 'd', 'a', ' ', '+', ' ', '\\', 't', 'h', 'e', 't', 'a']

如果您的 GUI 没有返回类似的结果（正如您的帖子所暗示的那样），那么我建议您研究修复 GUI 问题，而不是摆弄string_escape字符串replace。

解决方案 4：

当您从 GUI 控件读取字符串时，它已经是一个“原始”字符串。如果您打印出该字符串，您可能会看到反斜杠重复出现，但这是 Python 显示字符串的方式所造成的；内部仍然只有一个反斜杠。

>>> a='
u + lambda +     heta'
>>> a
'
u + \\lambda +     heta'
>>> len(a)
20
>>> b=r'
u + lambda +     heta'
>>> b
'\\nu + \\lambda + \\theta'
>>> len(b)
22
>>> b[0]
'\\'
>>> print b

u + lambda +     heta

解决方案 5：

我花了很多时间在互联网上尝试不同的答案，我怀疑某些方法对某些人有效而对其他人无效的原因是由于应用程序中非常小的奇怪差异。为了便于理解，我需要从包含奇怪和/或无法映射的 Unicode 字符的 csv 文件中读取文件名，并将它们写入新的 csv 文件。无论如何，以下是对我有用的方法：

s = '/u00e7/u00a3/u0085/u00e5/u008d/u0095' # csv freaks if you try to write this
s = repr(s.encode('utf-8', 'ignore'))[2:-1]