Python通用验证码识别OCR库之ddddocr验证码识别

作者:虫师 时间:2021-05-16 22:55:00 

前言

相信做自动化测试的同学一定不可忽视的问题就是验证码,他几乎是一个网站登录的标配,当然,我一般是不建议在这上面浪费时间去做识别的。

举个例子,现在你的目的是进入自己家的房子,房子为了防止小偷进入于是上了一把锁。我们没必要花费力气去研究开锁技术。去找锁匠配置一把万能钥匙(让开发设置验证码的万能码),或者干脆先去上锁匠把验证码去掉(让开发暂时屏蔽验证码)。严格来说识别验证码不是我们自动化测试的重点。除非你是验证码厂商的员工,破解识别验证码是你的工作。

那么,如果有很简单的方式去识别验证码的话,我们其实就可以不用麻烦开发针对验证码做屏蔽开关了。

ddddocr: 带带弟弟OCR通用验证码识别SDK 就是这样一款强大验证码识别工具。

为什么我会想到:hhhhhhhh 红红火火恍恍惚惚, 哈哈~!

传统验证码

传统验证就是数字、字母、汉字等,把背景搞得模糊一些,这些验证码在他前面就是个弟弟。

Python通用验证码识别OCR库之ddddocr验证码识别

以第一个为例,要想识别他非常容易了。

import?ddddocr
ocr?=?ddddocr.DdddOcr(old=True)
#?第一个验证截图保存:verification_code_1.png
with?open("./verification_code_1.png",?'rb')?as?f:
????image?=?f.read()
res?=?ocr.classification(image)
print(res)

运行结果:

iepv

滑动验证码

当然,传统验证码现在已经比较少网站在使用了,几年前开始流行滑动验证码,当时,也有类似的识别方案,主要通过selenium模拟滑动。

首先,需要准备两张图片

  • 有缺口的图片

Python通用验证码识别OCR库之ddddocr验证码识别

  • 滑块缝合的图片

Python通用验证码识别OCR库之ddddocr验证码识别

import?ddddocr
import?cv2

slide?=?ddddocr.DdddOcr(det=False,?ocr=False)

#?滑块缝合的图片
with?open('./verification_code_2-2.png',?'rb')?as?f:
????target_bytes?=?f.read()

#?有缺口的图片
with?open('./verification_code_2-1.png',?'rb')?as?f:
????background_bytes?=?f.read()

#?滑块缝合的图片
img?=?cv2.imread("./verification_code_2-2.png")
res?=?slide.slide_comparison(target_bytes,?background_bytes)
print(res)

运行结果

{'target': [17, 78]}

从文档中没找到这个坐标是滑块的初始坐标还是滑到正确位置的坐标。

当然,这种方案想要运行到自动化中还是比较难的,首先我们很难得到滑块缝合的图片,除非你将验证码的所有图片和缺口图片都保存下来,当验证码随机生成一张图片后,先截图和本地保存的图片对比,然后,找到对应的滑块缝合的图片。通过ddddocr找到元素坐标。

总之,太麻烦了,我选择放弃~!

文字点选验证码

这种验证码现在也比较常见,我们需要按照顺序点击图片中的文字。

Python通用验证码识别OCR库之ddddocr验证码识别

import?ddddocr
import?cv2

det?=?ddddocr.DdddOcr(det=True)

#?验证码图片
with?open("./verification_code_3.png",?'rb')?as?f:
????image?=?f.read()

poses?=?det.detection(image)
print(poses)

#?验证码图片
im?=?cv2.imread("verification_code_3.png")

for?box?in?poses:
????x1,?y1,?x2,?y2?=?box
????im?=?cv2.rectangle(im,?(x1,?y1),?(x2,?y2),?color=(0,?0,?255),?thickness=2)

#?结果图片
cv2.imwrite("result.jpg",?im)

运行结果:

Python通用验证码识别OCR库之ddddocr验证码识别

[[17,?28,?82,?92],?[55,?95,?118,?158],?[39,?160,?103,?222]]

这里给出的坐标就是识别的三个文字的图片坐标。

这种方案同样会面临两个问题;

  • 文字的识别顺序不一定是要你点击的顺序。例如识别出来的文字顺序是: 荷叶饭, 验证码可能提示你点击的顺序是:叶饭荷。

  • 生成的坐标只是图片的坐标,不管是web还是app,验证码图片只是屏幕的一部分,除非你截取整个屏幕。那么识别率就无法控制了。

来源:https://mp.weixin.qq.com/s/YUao5je6-7rbos_fA_Y_pA

标签:ddddocr,验证码,识别
0
投稿

猜你喜欢

  • PHP共享内存使用与信号控制实例分析

    2023-06-25 00:19:05
  • python机器学习库常用汇总

    2022-05-17 11:55:20
  • Python中更优雅的日志记录方案详解

    2023-09-02 13:43:03
  • js判断undefined类型,undefined,null, 的区别详细解析

    2024-05-09 10:34:26
  • 一文教你如何使用Python绘制瀑布图

    2023-07-10 18:29:28
  • python实现SMTP邮件发送功能

    2023-11-11 08:04:03
  • Python局部函数及用法详解(含nonlocal关键字)

    2023-07-26 05:02:52
  • JS动态添加与删除select中的Option对象(示例代码)

    2023-09-17 02:15:31
  • python实现12306火车票查询器

    2021-04-07 16:05:58
  • python: 自动安装缺失库文件的方法

    2023-08-30 05:42:38
  • pytorch训练时的显存占用递增的问题解决

    2021-04-20 07:12:45
  • Python Pillow.Image 图像保存和参数选择方式

    2023-03-03 03:36:54
  • Pandas使用Merge与Join和Concat分别进行合并数据效率对比分析

    2023-03-13 12:14:01
  • 不同浏览器所支持的“事件”

    2007-09-26 18:29:00
  • Python3 能振兴 Python的原因分析

    2021-01-11 06:44:12
  • Python函数关键字参数及用法详解

    2023-08-13 00:34:06
  • python可迭代类型遍历过程中数据改变会不会报错

    2021-04-15 19:40:52
  • 关于Python OS模块常用文件/目录函数详解

    2023-07-04 06:30:06
  • Vue.js绑定HTML class数组语法错误的原因分析

    2024-04-30 10:20:07
  • Django --Xadmin 判断登录者身份实例

    2021-08-28 07:59:34
  • asp之家 网络编程 m.aspxhome.com