Python通过pytesseract库实现识别图片中的文字

作者:空空star 时间:2021-12-02 14:43:03 

前言

大家好,我是空空star,本篇给大家分享一下通过Python的pytesseract库识别图片中的文字。

本篇所用软件相关版本:

macOS 11.6.5
Python 3.8.9
pytesseract 0.3.10
Pillow 9.4.0

一、pytesseract

1.pytesseract是什么

Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。Pytesseract基于Google的Tesseract OCR引擎,具有较高的准确性和可靠性。它可以读取多种格式的图片,包括PNG、JPEG、GIF等。Pytesseract可以应用于自然语言处理、数据挖掘、OCR识别等领域。

2.安装pytesseract

pip install pytesseract

3.查看pytesseract版本

pip show pytesseract

Name: pytesseract
Version: 0.3.10
Summary: Python-tesseract is a python wrapper for Google’s Tesseract-OCR
Home-page: https://github.com/madmaze/pytesseract
Author: Samuel Hoffstaetter
Author-email: samuel@hoffstaetter.com
License: Apache License 2.0
Requires: packaging, Pillow
Required-by:

4.安装PIL

Pillow库是Python图像处理库,pytesseract使用它来处理图像。

pip install pillow

5.查看PIL版本

pip show pillow

Name: Pillow
Version: 9.4.0
Summary: Python Imaging Library (Fork)
Home-page: https://python-pillow.org
Author: Alex Clark (PIL Fork Author)
Author-email: aclark@python-pillow.org
License: HPND
Requires:
Required-by: image, imageio, matplotlib, pytesseract, wordcloud

二、Tesseract OCR

1.Tesseract OCR是什么

Tesseract OCR是一种开源的OCR(Optical Character Recognition,光学字符识别)引擎,它能够将图像中的文本内容识别并转换为可编辑的文本格式。它最初由惠普实验室开发,现在由谷歌维护和更新。Tesseract OCR支持超过100种语言,包括中文、英文、法文、德文等。它可以在多种操作系统上运行,包括Windows、Linux、macOS等。Tesseract OCR被广泛应用于数字化文档、自动化数据输入、智能搜索等方面。

2.安装Tesseract OCR

macOS下:

brew install tesseract

3.安装 Tesseract OCR 语言包

macOS下:

brew install tesseract-lang

三、使用方法

1.引入库

import pytesseract
from PIL import Image

2.打开图片文件

img = Image.open("demo.png")

3.使用Tesseract进行文字识别

text = pytesseract.image_to_string(img, lang='chi_sim')

4.输出识别结果

print(text)

原图

Python通过pytesseract库实现识别图片中的文字

识别出的文字截图

Python通过pytesseract库实现识别图片中的文字

来源:https://blog.csdn.net/weixin_38093452/article/details/130507160

标签:Python,pytesseract,图片,文字
0
投稿

猜你喜欢

  • 解决Python 命令行执行脚本时,提示导入的包找不到的问题

    2022-05-22 23:58:29
  • 用MySQL创建数据库和数据库表代码

    2024-01-24 01:12:06
  • python密码错误三次锁定(实例讲解)

    2022-03-02 07:51:23
  • Javascript优化五大原则

    2007-10-30 13:49:00
  • Django实战之用户认证(初始配置)

    2022-08-17 22:15:02
  • Python基于staticmethod装饰器标示静态方法

    2022-11-07 07:25:11
  • Python通过format函数格式化显示值

    2021-11-06 06:13:01
  • Python将脚本程序转变为可执行程序的实现

    2022-03-02 16:30:49
  • sql将时间类型转换为字符串类型汇总

    2024-01-25 10:33:42
  • python中安装Scrapy模块依赖包汇总

    2023-11-08 07:06:25
  • Python数据类型-序列sequence

    2022-06-07 11:03:56
  • Golang中字符串(string)与字节数组([]byte)一行代码互转实例

    2023-09-17 14:37:07
  • 深入认识javascript中的eval函数

    2008-08-03 16:44:00
  • ThinkPHP中pathinfo的访问模式、路径访问模式及URL重写总结

    2024-05-05 09:16:33
  • python神经网络使用tensorflow构建长短时记忆LSTM

    2021-10-13 19:23:39
  • Python写代码的七条重要技巧介绍

    2023-09-14 06:04:07
  • 浅谈Python单向链表的实现

    2023-01-18 14:00:39
  • WEB页面工具语言XML产生背景

    2008-05-29 10:52:00
  • Python基于文件内容实现查找文件功能

    2022-04-13 11:17:47
  • 基于Python编写一个ISBN查询工具

    2022-02-22 09:43:21
  • asp之家 网络编程 m.aspxhome.com