UnicodeDecodeError:'utf8'编解码器无法解码字节 0x9c

2024-09-30 15:23:00
admin
原创
255
摘要:问题描述:我有一个套接字服务器,应该从客户端接收 UTF-8 有效字符。问题是一些客户端(主要是黑客)通过它发送了所有错误类型的数据。我可以轻松区分真正的客户端,但我会将所有发送的数据记录到文件中,以便稍后进行分析。有时我会收到这样的字符,œ从而导致UnicodeDecodeError错误。我需要能够使字符串...

问题描述:

我有一个套接字服务器,应该从客户端接收 UTF-8 有效字符。

问题是一些客户端(主要是黑客)通过它发送了所有错误类型的数据。

我可以轻松区分真正的客户端,但我会将所有发送的数据记录到文件中,以便稍后进行分析。

有时我会收到这样的字符,œ从而导致UnicodeDecodeError错误。

我需要能够使字符串包含或不包含这些字符成为 UTF-8。


更新:

就我的特定情况而言,套接字服务是 MTA,因此我只希望接收如下 ASCII 命令:

EHLO example.com
MAIL FROM: <john.doe@example.com>
...

我正在用 JSON 记录所有这些。

然后一些心怀不轨的人决定发送各种垃圾邮件。

这就是为什么对于我的特定情况来说,删除非 ASCII 字符是完全可以的。


解决方案 1:

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')

或者

str = unicode(str, errors='ignore')

注意: 这将删除(忽略)有问题的字符并返回不包含这些字符的字符串。

对我来说这是理想的情况,因为我用它来保护我应用程序不允许的非 ASCII 输入。

或者:使用模块中的 open 方法codecs读取文件:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:

解决方案 2:

将引擎从 C 更改为 Python 对我来说很有效。

引擎是C:

pd.read_csv(gdp_path, sep='    ', engine='c')

‘utf-8’ 编解码器无法解码位置 18 处的字节 0x92:无效的起始字节

引擎是 Python:

pd.read_csv(gdp_path, sep='    ', engine='python')

对于我来说没有错误。

解决方案 3:

现在我已经转向 Python 3,这种问题就出现了。我不知道 Python 2 可以轻易解决文件编码方面的问题。

在上述方法都对我不起作用之后,我发现了这个关于差异的很好的解释以及如何找到解决方案。

http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html

简而言之,为了使 Python 3 的行为尽可能类似于 Python 2,请使用:

with open(filename, encoding="latin-1") as datafile:
    # work on datafile here

然而,阅读本文后,你会发现,没有一种解决方案可以解决所有问题。

解决方案 4:

第一、使用get_encoding_type获取文件的编码类型:

import os    
from chardet import detect

# get file encoding type
def get_encoding_type(file):
    with open(file, 'rb') as f:
        rawdata = f.read()
    return detect(rawdata)['encoding']

第二步,使用以下类型打开文件:

open(current_file, 'r', encoding = get_encoding_type, errors='ignore')

解决方案 5:

>>> 'œ'.decode('cp1252')
u'œ'
>>> print 'œ'.decode('cp1252')
œ

解决方案 6:

我遇到了同样的问题UnicodeDecodeError,我用这个方法解决了。不知道这是否是最好的方法,但对我来说很有效。

str = str.decode('unicode_escape').encode('utf-8')

解决方案 7:

当使用拉丁美洲口音(例如“ñ”)时,此解决方案效果很好。

我已经通过添加解决了这个问题

df = pd.read_csv(fileName,encoding='latin1')

解决方案 8:

以防万一有人遇到同样的问题。我正在使用 vim 和YouCompleteMe,无法启动 ycmd 并出现此错误消息,我所做的是:export LC_CTYPE="en_US.UTF-8",问题就解决了。

解决方案 9:

如果您需要更改文件,但不知道文件的编码,该怎么办?如果您知道编码与 ASCII 兼容,并且只想检查或修改 ASCII 部分,则可以使用 surrogateescape 错误处理程序打开文件:

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

解决方案 10:

类似的错误,例如

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 22: invalid start byte

read_csv()如果有人尝试使用pandas打开 Excel 文件,也会显示此错误。改用pd.read_excel()可解决此错误。

一个演示它的示例(文件名是 data_dictionary,因为数据字典通常是 Excel 文件,而数据集本身是 CSV 文件)。

import pandas as pd

# some sample data
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
df.to_excel('data_dictionary.xlsx', index=False)


df = pd.read_csv("data_dictionary.xlsx")         # <----- error

df = pd.read_excel("data_dictionary.xlsx")       # <----- OK

解决方案 11:

如果像您所说的那样,您只想允许纯 7 位 ASCII,则只需丢弃任何不符合要求的字节即可。无论如何,没有明确指定的编码,就没有直接的方法来猜测远程端希望它们表示什么。

while bytes := socket.read_line_bytes():
    try:
        string = bytes.decode('us-ascii')
    except UnicodeDecodeError as exc:
        logger.warning('[%s] - rejected non-ASCII input %s' % (client, bytes.decode('us-ascii',  errors='backslashreplace'))
        socket.write(b'421 communication error - non-ASCII content rejected
')
        continue
    ...

解决方案 12:

我也犯了同样的错误。

对我来说,Python 抱怨字节“0x87”。我在<https://bytetool.web.app/en/ascii/code/0x87/>上查找了它,它告诉我这个字节属于编解码器 Windows-1252。

然后我只将这一行添加到我的 Python 文件的开头:

#-*- encoding: Windows-1252 -*-&quot;

所有错误都消失了。在添加此行之前,我曾尝试使用 Pandas 导入文件,如下所示:

Df = pd.read_csv(data, sep=&quot;,&quot;, engine=&#039;python&#039;, header=0, encoding=&#039;Windows-1252&#039;)

但这返回了一个错误。所以我将其改回如下:

Df = pd.read_csv(data, sep=&quot;,&quot;, engine=&#039;python&#039;, header=0)

解决方案 13:

相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2482  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1533  
  PLM(产品生命周期管理)项目对于企业优化产品研发流程、提升产品质量以及增强市场竞争力具有至关重要的意义。然而,在项目推进过程中,范围蔓延是一个常见且棘手的问题,它可能导致项目进度延迟、成本超支以及质量下降等一系列不良后果。因此,有效避免PLM项目范围蔓延成为项目成功的关键因素之一。以下将详细阐述三大管控策略,助力企业...
plm系统   0  
  PLM(产品生命周期管理)项目管理在企业产品研发与管理过程中扮演着至关重要的角色。随着市场竞争的加剧和产品复杂度的提升,PLM项目面临着诸多风险。准确量化风险优先级并采取有效措施应对,是确保项目成功的关键。五维评估矩阵作为一种有效的风险评估工具,能帮助项目管理者全面、系统地评估风险,为决策提供有力支持。五维评估矩阵概述...
免费plm软件   0  
  引言PLM(产品生命周期管理)开发流程对于企业产品的全生命周期管控至关重要。它涵盖了从产品概念设计到退役的各个阶段,直接影响着产品质量、开发周期以及企业的市场竞争力。在当今快速发展的科技环境下,客户对产品质量的要求日益提高,市场竞争也愈发激烈,这就使得优化PLM开发流程成为企业的必然选择。缺陷管理工具和六西格玛方法作为...
plm产品全生命周期管理   0  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用