Python3爬虫中识别图形验证码的实例讲解

作者:爱喝马黛茶的安东尼 时间:2022-10-17 17:11:20 

本节我们首先来尝试识别最简单的一种验证码,图形验证码,这种验证码出现的最早,现在也很常见,一般是四位字母或者数字组成的,例如中国知网的注册页面就有类似的验证码,链接为:http://my.cnki.net/elibregister/commonRegister.aspx,页面:

Python3爬虫中识别图形验证码的实例讲解

表单的最后一项就是图形验证码,我们必须完全输入正确图中的字符才可以完成注册。

1.本节目标

本节我们就以知网的验证码为例,讲解一下利用 OCR 技术识别此种图形验证码的方法。

2. 准备工作

识别图形验证码需要的库有 Tesserocr,如果没有安装可以参考第一章的安装说明。

3. 获取验证码

为了便于实验,我们先将验证码的图片保存到本地,以供测试。

打开开发者工具,找到验证码元素,可以看到这是一张图片,它的 src 属性是 CheckCode.aspx,在这里我们直接将这个链接打开:http://my.cnki.net/elibregister/CheckCode.aspx,就可以看到一个验证码,直接右键保存下来即可,将名称命名为 code.jpg,如图 8-2 所示:

Python3爬虫中识别图形验证码的实例讲解

这样我们就可以得到一张验证码图片供下面测试识别使用了。

4. 识别测试

接下来我们新建一个项目,将验证码图片放到项目根目录下,用 Tesserocr 库来识别一下该验证码试试,代码如下:


import tesserocr
from PIL import Image
image = Image.open('code.jpg')
result = tesserocr.image_to_text(image)
print(result)

在这里我们首先新建了一个 Image 对象,然后调用了 Tesserocr 的 image_to_text() 方法,传入该 Image 对象即可完成识别,实现过程非常简单,识别结果如下:


JR42

另外 Tesserocr 还有一个更加简单的方法直接将图片文件转为字符串可以达到同样的效果,代码如下:


import tesserocr
print(tesserocr.file_to_text('image.png'))

不过经测试此种方法的识别效果不如上一种方法好。

5. 验证码处理

如上的图片识别基本没有难度,只是新建一个 Image 对象,然后调用 image_to_text() 方法即可得出图片的识别结果。

接下来我们换一个验证码试一下,命名为 code2.jpg,如图 8-3 所示:

Python3爬虫中识别图形验证码的实例讲解

重新用下面的代码测试一下:


import tesserocr
from PIL import Image
image = Image.open('code2.jpg')
result = tesserocr.image_to_text(image)
print(result)

这时可以看到如下输出结果:


FFKT

发现这次识别和实际的结果有所偏差,这是因为验证码内的多余线条干扰了图片的识别。

对于这种情况,我们还需要做一下额外的处理,如转灰度、二值化等操作。

我们可以利用 Image 对象的 convert() 方法参数传入 L 即可将图片转化为灰度图像,代码如下:


image = image.convert('L')
image.show()

传入 1 即可将图片进行二值化处理:


image = image.convert('1')
image.show()

另外我们还可以指定二值化的阈值,上面的方法采用的是默认阈值127,不过我们不能用原图直接转化,可以先转为灰度图像,然后再指定二值化阈值转化,代码如下:


image = image.convert('L')
threshold = 80
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')
image.show()

在这里我们指定了一个变量 threshold 代表二值化阈值,阈值设置为 80,处理之后我们看一下结果,如图 8-4 所示:

Python3爬虫中识别图形验证码的实例讲解

经过处理之后我们发现原来的验证码中的线条已经被去除了,而且整个验证码变得黑白分明,这时重新识别验证码,代码如下:


import tesserocr
from PIL import Image
image = Image.open('code2.jpg')
image = image.convert('L')
threshold = 127
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')
result = tesserocr.image_to_text(image)
print(result)

即可发现运行结果变成了:


PFRT

识别正确。

可见对于一些有干扰的图片,我们做一些灰度和二值化处理,会提高其识别正确率。

6. 本节代码

本节代码地址为:https://github.com/Python3WebSpider/CrackImageCode。

7. 结语

本节我们了解了利用 Tesserocr 识别验证码的过程,对于简单的图形验证码我们可以直接用它来得到结果,如果要提高识别的准确度还可以对验证码图片做一下预处理。

来源:https://www.py.cn/spider/advanced/14441.html

标签:Python3,爬虫,图形验证码
0
投稿

猜你喜欢

  • python3爬虫之入门基础和正则表达式

    2023-04-11 12:48:02
  • asp如何定义参数?

    2010-05-16 15:20:00
  • DBA应当了解的MySQL客户端程序启动选项

    2009-01-04 13:00:00
  • Python绘图之桃花盛开

    2022-03-20 08:05:50
  • JS运行耗时操作的延时显示方法

    2024-05-10 14:07:25
  • python smtplib模块发送SSL/TLS安全邮件实例

    2023-12-18 01:53:09
  • django 微信网页授权认证api的步骤详解

    2021-09-15 03:58:40
  • python调用百度语音REST API

    2022-09-16 18:19:07
  • 如何获取Python简单for循环索引

    2023-11-17 13:50:08
  • Python 如何求矩阵的逆

    2021-07-22 23:28:43
  • 学生如何免费使用Pycharm专业版学生认证教程

    2021-11-20 16:25:13
  • 为2021年的第一场雪锦上添花:用matplotlib绘制雪花和雪景

    2022-02-01 23:19:56
  • 浅谈python 中的 type(), dtype(), astype()的区别

    2022-09-13 22:40:39
  • SqlServer 2005 T-SQL Query 学习笔记(4)

    2024-01-26 07:44:06
  • Python游戏开发实例之graphics实现AI五子棋

    2022-12-15 10:22:27
  • 一分钟学会JavaScript中的try-catch

    2024-05-10 14:06:57
  • python算法表示概念扫盲教程

    2022-06-22 00:43:34
  • flask+layui+echarts实现前端动态图展示数据效果

    2023-06-24 15:41:55
  • ie7.0浏览器 兼容问题苦煞网站设计者

    2007-08-08 17:11:00
  • Python的type函数结果你知道嘛

    2023-01-07 11:33:51
  • asp之家 网络编程 m.aspxhome.com