Python印刷体文字识别教程

B站影视 日本电影 2025-03-31 19:56 1

摘要:在Python中实现印刷体文字识别(OCR),通常使用Tesseract OCR引擎结合Python库。以下是详细步骤和示例:

在Python中实现印刷体文字识别(OCR),通常使用Tesseract OCR引擎结合Python库。以下是详细步骤和示例:

1. 安装依赖库

bash

pip install pytesseract pillow

Tesseract OCR 需要单独安装:

Ø Windows: 从 UB-Mannheim的Tesseract安装包 下载安装,安装时勾选中文语言包。

Ø MacOS: brew install tesseract

Ø Linux: sudo apt install tesseract-ocr

2. 基础代码示例

python

from PIL import Image

import pytesseract

# 指定Tesseract路径(Windows可能需要)

# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 打开并预处理图像

image = Image.open('text_image.jpg')

gray_image = image.convert('L') # 转为灰度图

# 执行OCR识别(默认英文)

text = pytesseract.image_to_string(gray_image)

print(text)

# 识别中文(需安装中文语言包)

text_chinese = pytesseract.image_to_string(gray_image, lang='chi_sim')

print(text_chinese)

3. 图像预处理建议

灰度化:减少颜色干扰二值化:增强对比度

python

threshold = 150

binary_image = gray_image.point(lambda p: p > threshold and 255)

降噪:使用cv2库(需安装opencv-python)进行高斯模糊、边缘检测等调整分辨率:建议图像DPI≥300

4. 处理复杂场景

多语言混合:lang='chi_sim+eng'版面分析:使用image_to_data获取文字位置信息

python

data = pytesseract.image_to_data(image, output_type=pytesseract.Output.DICT)

深度学习优化:对于复杂字体,可使用基于深度学习的库如EasyOCR:

python

import easyocr

reader = easyocr.Reader(['ch_sim','en'])

result = reader.readtext('image.jpg')

5. 常见问题解决

识别率低:尝试调整阈值、增加图像分辨率中文乱码:确认安装时勾选了中文语言包路径错误:Windows需在代码中指定tesseract_cmd路径

完整预处理+识别示例

python

from PIL import Image, ImageFilter

import pytesseract

def preprocess_image(img_path):

img = Image.open(img_path)

img = img.convert('L') # 灰度化

img = img.filter(ImageFilter.SHARPEN) # 锐化

# 二值化

img = img.point(lambda x: 0 if x

return img

image = preprocess_image('document.jpg')

text = pytesseract.image_to_string(image, lang='chi_sim+eng')

print(text)

简单场景:Tesseract + 基本预处理复杂场景:EasyOCR/PaddleOCR(更适合中文)专业需求:Google Cloud Vision API(付费但准确率更高)

来源:老客数据一点号

相关推荐