python爬虫之自动登录与验证码识别

作者:liuwons 时间:2022-05-18 07:22:53 

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:


#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
result = {}

tree = etree.HTML(html)
try:
result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
except IndexError, e:
return None

valimg = None
valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
if len(valimgs) > 0:
valimg = valimgs[0]

validateCode = None
if valimg:
fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
config['gid'] = config['gid'] + 1
ri = s.get("https://passport.csdn.net" + valimg)
with open(fname, 'wb') as f:
 for chk in ri:
 f.write(chk)
 f.close()
validateCode = pytesser.image_file_to_string(fname)
validateCode = validateCode.strip()
validateCode = validateCode.replace(' ', '')
validateCode = validateCode.replace('\n', '')
result['validateCode'] = validateCode

return result

def login(usr, pwd, idx):
s = requests.Session()

r = s.get('https://passport.csdn.net/account/login',
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

while True:
res = parse(s, r.text, idx)
if res == None:
 return False
url = 'https://passport.csdn.net' + res['path']
form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
if res.has_key('validateCode'):
 form['validateCode'] = res['validateCode']
s.headers.update({
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
 'Content-Type': 'application/x-www-form-urlencoded',
 'Host': 'passport.csdn.net',
 'Origin': 'https://passport.csdn.net',
 'Referer': 'https://passport.csdn.net/account/login',
 'Upgrade-Insecure-Requests': 1,
 })
r = s.post(url, data=form)

tree = etree.HTML(r.text)
err_strs = tree.xpath('//span[@id="error-message"]/text()')
if len(err_strs) == 0:
 return True
err_str = err_strs[0]
print err_str
err = err_str.encode('utf8')

validate_code_err = '验证码错误'
usr_pass_err = '帐户名或登录密码不正确,请重新输入'
try_later_err = '登录失败连续超过5次,请10分钟后再试'

if err[:5] == validate_code_err[:5]:
 pass
elif err[:5] == usr_pass_err[:5]:
 return False
elif err[:5] == try_later_err[:5]:
 return False
else:
 return True

if __name__ == '__main__':
main(sys.argv[1], sys.argv[2], 0)

来源:https://blog.csdn.net/tobacco5648/article/details/50640691

标签:python,自动登录,验证码
0
投稿

猜你喜欢

  • python实现集中式的病毒扫描功能详解

    2022-03-04 03:16:00
  • 网站中美好的细节

    2011-07-13 18:43:07
  • Jquery 切换不同图片示例代码

    2024-04-16 09:31:33
  • Python中使用OpenCV库来进行简单的气象学遥感影像计算

    2021-02-02 09:45:49
  • python实现微信跳一跳辅助工具步骤详解

    2023-08-02 11:11:40
  • 使用卷积神经网络(CNN)做人脸识别的示例代码

    2023-12-31 06:25:05
  • Python3中的bytes类型和str类型

    2022-06-23 08:14:29
  • 详解python发送各类邮件的主要方法

    2023-07-27 11:08:50
  • vue.js使用watch监听路由变化的方法

    2024-05-10 14:16:22
  • python定时截屏实现

    2021-01-28 22:04:09
  • 本地存储localStorage用法详解

    2024-04-30 10:09:11
  • 正在研究XMLHTTP如何正确传送大于7F(127)的二进制数据

    2008-09-13 18:41:00
  • golang中sync.Map并发创建、读取问题实战记录

    2023-07-16 12:23:27
  • django中模板的html自动转意方法

    2023-06-28 15:33:49
  • Python爬虫自动化获取华图和粉笔网站的错题(推荐)

    2023-08-14 02:05:42
  • python实现键盘输入的实操方法

    2022-07-25 19:18:25
  • Python 图像处理: 生成二维高斯分布蒙版的实例

    2023-01-31 16:29:06
  • python OpenCV 图像通道数判断

    2023-10-15 18:21:22
  • django基于存储在前端的token用户认证解析

    2023-12-27 19:14:59
  • python列表生成器迭代器实例解析

    2022-01-14 15:09:20
  • asp之家 网络编程 m.aspxhome.com