Pytesseract OCR 多个配置选项

2024-12-18 08:39:00
admin
原创
184
摘要:问题描述:我在使用 pytesseract 时遇到了一些问题。我需要配置 Tesseract,使其配置为接受单个数字,同时也只能接受数字,因为数字零经常与“O”混淆。像这样:target = pytesseract.image_to_string(im,config='-psm 7',config='outp...

问题描述:

我在使用 pytesseract 时遇到了一些问题。我需要配置 Tesseract,使其配置为接受单个数字,同时也只能接受数字,因为数字零经常与“O”混淆。

像这样:

target = pytesseract.image_to_string(im,config='-psm 7',config='outputbase digits')

解决方案 1:

tesseract-4.0.0a支持以下psm。如果您想要单字符识别,请设置psm = 10。如果您的文本仅由数字组成,您可以设置tessedit_char_whitelist=0123456789

Page segmentation modes:
  0    Orientation and script detection (OSD) only.
  1    Automatic page segmentation with OSD.
  2    Automatic page segmentation, but no OSD, or OCR.
  3    Fully automatic page segmentation, but no OSD. (Default)
  4    Assume a single column of text of variable sizes.
  5    Assume a single uniform block of vertically aligned text.
  6    Assume a single uniform block of text.
  7    Treat the image as a single text line.
  8    Treat the image as a single word.
  9    Treat the image as a single word in a circle.
 10    Treat the image as a single character.
 11    Sparse text. Find as much text as possible in no particular order.
 12    Sparse text with OSD.
 13    Raw line. Treat the image as a single text line,
                        bypassing hacks that are Tesseract-specific.

以下是具有多个参数的示例用法image_to_string

target = pytesseract.image_to_string(image, lang='eng', boxes=False, \n        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

解决方案 2:

页面分割模式:

  1. 仅限方向和脚本检测 (OSD)。

  2. 使用OSD自动分割页面。

  3. 自动页面分割,但没有 OSD 或 OCR。(未实现)

  4. 全自动页面分割,但没有 OSD。(默认)

  5. 假设单列文本的大小可变。

  6. 假设单一均匀的文本块垂直对齐。

  7. 假设单一统一的文本块。

  8. 将图像视为单行文本。

  9. 将图像视为一个单词。

  10. 将图像视为圆圈内的单个单词。

  11. 将图像视为单个字符。

  12. 稀疏文本。尽可能多地查找不按特定顺序排列的文本。

  13. 带有 OSD 的稀疏文本。

  14. 原始行。将图像视为单行文本,绕过特定于 Tesseract 的黑客攻击。

OCR 引擎模式:

  1. 仅限旧式引擎。

  2. 仅限神经网络 LSTM 引擎。

  3. 遗留 + LSTM 引擎。

  4. 默认,基于可用内容。

解决方案 3:

您遇到问题的原因是字符限制在 4.0 版本中不起作用。您必须强制使用旧模式 (oem 0) 来限制找到的字符。Tesseract 团队中有一个尚未解决的错误。

解决方案 4:

Tesseract 版本 5.0.0-alpha 可以使用以下命令:(使用 psm=13 和 oem=1 或 3)

pytesseract.image_to_string(export_image ,lang='eng', config='--psm 13 --oem 1 -c tessedit_char_whitelist=ABCDEFG0123456789')

请注意,eng训练数据集取自:https

://github.com/tesseract-ocr/tessdata_fast/blob/master/eng.traineddata
注意:在具有单个字符的 +-60x60px 的二进制输入图像上进行测试

相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2593  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1555  
  IPD(Integrated Product Development)流程作为一种先进的产品开发管理模式,在众多企业中得到了广泛应用。其中,技术评审与决策评审是IPD流程中至关重要的环节,它们既有明显的区别,又存在紧密的协同关系。深入理解这两者的区别与协同,对于企业有效实施IPD流程,提升产品开发效率与质量具有重要意义...
IPD管理流程   32  
  本文介绍了以下10款项目管理软件工具:禅道项目管理软件、ClickUp、Freshdesk、GanttPRO、Planview、Smartsheet、Asana、Nifty、HubPlanner、Teamwork。在当今快速变化的商业环境中,项目管理软件已成为企业提升效率、优化资源分配和确保项目按时交付的关键工具。然而...
项目管理系统   28  
  建设工程项目质量关乎社会公众的生命财产安全,也影响着企业的声誉和可持续发展。高质量的建设工程不仅能为使用者提供舒适、安全的环境,还能提升城市形象,推动经济的健康发展。在实际的项目操作中,诸多因素会对工程质量产生影响,从规划设计到施工建设,再到后期的验收维护,每一个环节都至关重要。因此,探寻并运用有效的方法来提升建设工程...
工程项目管理制度   24  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用