Python调用百度AI实现图片上文字识别功能实例

作者：鱼尾努力淦饭时间：2022-07-27 11:02:44　

简介

Python免费调用百度AI实现图片上面的文字识别

步骤

安装百度AI库

!pip install baidu-aip

注册百度AI开放平台

先注册百度AI，获得ID和密钥。注册方法可参考：注册方法只需走到 “1.6 获取密钥” 即可。然后记录下自己的APP_ID、API_KEY、SECRET_KEY，就可以开始了。

调用glob库

glob库用于获得指定路径下的指定后缀的文件，图片使用的是《数学模型》pdf扫描版，部分如下：

import glob
path = "数学模型\\"
glob.glob(path+"*.png")

指定文件夹中的指定的.png后缀的文件，全部提取出来了：

选取第一张图片 “数学模型1.png” 做测试：

files = glob.glob(path+"*.png")
file = files[0]

调用AipOcr库识别文字

导入AipOcr模块，这个模块是用于做文字识别的（OCR即Optical Character Recognition，光学字符识别）。填入你申请的ID和KEY，client = AipOcr()是固定写法。先用二进制方式rb打开，然后读取，再调用百度AI进行识别，并将识别结果存入message变量。

from aip import AipOcr #导入AipOcr模块，用于做文字识别
import glob

APP_ID = '*********' # 你申请的
API_KEY = '*********'# 你申请的
SECRET_KEY = '*********'# 你申请的
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

pic = open(file,'rb')# 以二进制（rb）打开
img = pic.read() # 读取
message = client.basicGeneral(img) # 调用百度AI识别图片中的文字

查看message参数，结果如下：

可见，message参数的结果为 “大字典” 形式，其中的键 words_result 所对应的值为一个 “大列表” ，这个列表里又有很多键值对，键都是words，值就是AI从图片上识别出来的内容。使用语句message['words_result'][0...n]['words']可以筛选出该页的标题：

message['words_result'][1]['words']

for循环逐行提取:

for words in message['words_result']:
word = words['words'] # 提取文字
print(word)

识别效果图：

识别也不是完美的，有很多识别错误与未识别出的文字。当然，原图字体越清晰，识别度越高。

可能会遇到的问题

识别过程中可能会遇到类似识别错误（无法识别）问题，原因是未领取免费识别次数，解决过程如下：

百度OCR API识别失败：Open api qps request limit reached 错误解决方法

几个月前，用Python写了个小工具，主要是用到了百度的OCR API做了个文字识别的小工具，前面一直能用，然而今天，在使用的时候，报错了。
错误如下：Open api qps request limit reached

最后终于找到了解决方法，原来，现在要自己去领取免费的测试额度了！！！

领取免费测试额度的地址：（或者你在你原来那个调用的那个项目里也可以找到免费领取测试额度，见下图）

https://console.bce.baidu.com/ai/#/ai/ocr/overview/resource/getFree

领取完之后，还是用原来项目的appID,apiKey,secretKey即可。

然后等领取额度到账后，重新运行就行了。

批量操作

批量操作的核心为for循环,txt_file = open('数学模型.txt', 'a')指打开名字为“数学模型”的文本文件（若不存在则自动新建），模式为添加模式，即'a'模式。添加模式是指，如果文本中已经有一些内容，则接着往下写，不会影响原来的内容。如果是'w'模式，则会将之前的内容全部覆盖。然后遍历待处理的图片，逐个处理：

from aip import AipOcr #导入AipOcr模块，用于做文字识别
import glob

APP_ID = '*********' # 你申请的
API_KEY = '*********'# 你申请的
SECRET_KEY = '*********'# 你申请的
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

path = "数学模型\\"
files = glob.glob(path+"*.png")

txt_file = open('数学模型.txt', 'a')

for file in files:
pic = open(file,'rb')# 以二进制（rb）打开
img = pic.read() # 读取
message = client.basicGeneral(img) # 调用百度AI识别图片中的文字
for words in message['words_result']:
word = words['words'] # 提取文字
print(word)

txt_file.write(word) # 将文字写入文本文件

txt_file.close() # 关闭文本文件

来源：https://blog.csdn.net/weixin_47282404/article/details/120104272

标签：python,识别,文字

投稿

Python调用百度AI实现图片上文字识别功能实例

简介

步骤

安装百度AI库

注册百度AI开放平台

调用glob库

调用AipOcr库识别文字

可能会遇到的问题

批量操作

猜你喜欢

CSS 裸奔节

Python使用post及get方式提交数据的实例

如何正确显示模式对话框showModalDialog中的中文？

class和id命名探讨

我的css样式写法总结

Oracle中sys和system的区别小结

微软:跑分速度不是IE8的开发重点

php中json_decode()和json_encode()的使用方法

Golang利用casbin实现权限验证详解

ASP无组件汉字验证码

用户体验在商业利益面前什么都不是

Python中断多重循环的几种方式详解

如何编写一个创建FTP站点的函数？

基于tkinter中ttk控件的width-height设置方式

汇总数据库备份还原压缩与数据库转移的方法

Access 导入 MSSQL 2000/2005 数据库工具

python中dict字典的查询键值对遍历排序创建访问更新删除基础操作方法

比较简单的异步加载JS文件的代码

React开发进阶redux saga使用原理详解

Python使用百度api做人脸对比的方法

Python调用百度AI实现图片上文字识别功能实例

简介

步骤

安装百度AI库

注册百度AI开放平台

调用glob库

调用AipOcr库识别文字

可能会遇到的问题

批量操作

猜你喜欢

CSS 裸奔节

Python使用post及get方式提交数据的实例

如何正确显示模式对话框showModalDialog中的中文？

class和id命名探讨

我的css样式写法总结

Oracle中sys和system的区别小结

微软:跑分速度不是IE8的开发重点

php中json_decode()和json_encode()的使用方法

Golang利用casbin实现权限验证详解

ASP无组件汉字验证码

用户体验在商业利益面前什么都不是

Python中断多重循环的几种方式详解

如何编写一个创建FTP站点的函数？

基于tkinter中ttk控件的width-height设置方式

汇总数据库备份 还原 压缩与数据库转移的方法

Access 导入 MSSQL 2000/2005 数据库工具

python中dict字典的查询键值对 遍历 排序 创建 访问 更新 删除基础操作方法

比较简单的异步加载JS文件的代码

React开发进阶redux saga使用原理详解

Python使用百度api做人脸对比的方法

汇总数据库备份还原压缩与数据库转移的方法

python中dict字典的查询键值对遍历排序创建访问更新删除基础操作方法