python通过pillow识别动态验证码的示例代码
作者:香博士 时间:2023-08-27 02:29:21
生活中,我们在登录微博,邮箱的时候,常常会碰到验证码。在工作时,如果想要爬取一些数据,也会碰到验证码的阻碍。本次试验将带领大家认识验证码的一些特性,并利用 Python 中的 pillow 库完成对验证码的破解。
环境配置
Python 2.7
Pillow 模块
有个问题就是python2.7目前只能让使用到2020年,现在再利用2.7下载好多东西都会报错,也该是时候更新到python3.7了,本文还是依赖于2.7的环境。
识别验证码的代码下载地址:python_captcha_jb51.rar
安装 pillow(PIL)库
sudo apt-get update
sudo apt-get install python-dev libtiff5-dev libjpeg8-dev zlib1g-dev libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk
sudo pip2 install pillow
识别过程
将验证码文件python_captcha下载到运行目录下,解压后,在 python_captcha 目录新建 crack.py 文件,进行编辑。
#-*- coding:utf8 -*-
from PIL import Image
im = Image.open("captcha.gif")
#(将图片转换为8位像素模式)
im.convert("P")
# 打印颜色直方图
print im.histogram()
输出:
颜色直方图的每一位数字都代表了在图片中含有对应位的颜色的像素的数量。
每个像素点可表现 256 种颜色,你会发现白点是最多(白色序号 255 的位置,也就是最后一位,可以看到,有 625 个白色像素)。红像素在序号 200 左右,我们可以通过排序,得到有用的颜色。
his = im.histogram()
values = {}
for i in range(256):
values[i] = his[i]
for j,k in sorted(values.items(),key=lambda x:x[1],reverse = True)[:10]:
print j, k
输出:
我们得到了图片中最多的 10 种颜色,其中 220 与 227 才是我们需要的红色和灰色,可以通过这一讯息构造一种黑白二值图片。
#-*- coding:utf8 -*-
from PIL import Image
im = Image.open("captcha.gif")
im.convert("P")
im2 = Image.new("P",im.size,255)
for x in range(im.size[1]):
for y in range(im.size[0]):
pix = im.getpixel((y,x))
if pix == 220 or pix == 227: # these are the numbers to get
im2.putpixel((y,x),0)
im2.show()
输出:
局限及遇到的问题
#-*- coding:utf8 -*-
此行命令流在windows环境下运行会报错,具体原因可参考python(2)中文编码乱码问题;
该命令流有很大的局限性,识别的动态代买也只有此类:
来源:https://blog.csdn.net/weixin_42535423/article/details/103964883
标签:python,pillow,验证码
0
投稿
猜你喜欢
Java API学习教程之正则表达式详解
2023-10-23 05:28:21
深入理解Python虚拟机中列表(list)的实现原理及源码剖析
2022-07-10 22:02:27
pycharm通过ssh连接远程服务器教程
2022-10-09 19:44:31
Python中reduce函数详解
2022-09-03 12:26:33
六个Python编程最受用的内置函数使用详解
2022-06-12 22:26:01
git验证线上的版本是否符合预期
2023-03-04 16:24:09
[精品]ASP中常用的22个FSO文件操作函数
2007-08-18 15:12:00
借助JavaScript脚本判断浏览器Flash Player信息的方法
2024-04-17 09:50:18
使用python实现md5加密
2022-11-02 21:08:30
Python制作摩斯密码翻译器
2021-06-27 15:27:58
Django Serializer HiddenField隐藏字段实例
2022-10-29 02:39:07
Python 制作查询商品历史价格的小工具
2021-10-13 06:03:16
使用Python的Tornado框架实现一个简单的WebQQ机器人
2023-03-19 03:26:09
python Matplotlib数据可视化(1):简单入门
2022-05-11 19:43:16
swoole_process实现进程池的方法示例
2024-06-05 15:40:23
如何正确的解决 MySQL中忽略用户的现象
2008-11-27 16:00:00
golang中实现graphql请求的方法
2024-02-19 16:21:18
Python Web服务器Tornado使用小结
2023-06-25 23:07:21
Python使用matplotlib绘制三维参数曲线操作示例
2021-03-30 05:55:31
MySQL字段类型详解
2009-01-05 09:23:00