Python 通过爬虫实现GitHub网页的模拟登录的示例代码

作者:Amo Xiang 时间:2022-04-27 00:26:39 

1. 实例描述

通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub 网页的模拟登录。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

2. 代码实现

在实现 GitHub 网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:

(1) 点击 此处 打开 GitHub 的登录页面,然后输入账号与密码,如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(2) 用 F12 或者 鼠标右键单击网页选择 检查 打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in 按钮,此时开发者工具中将显示 GitHub 网页的登录请求过程,重点查找名称为 session 的网络请求。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(3) 单击名称为 session 的网络请求,然后在 Headers 请求信息中主要查看 Request HeadersForm Data 中的各种信息,其中红框内为重要参数与数据。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

说明:Host 为主页面地址,Referer 为当前请求的来源地址。User-Agent 为浏览器的头部信息。Form Data 中的所有信息都是登录请求的所用参数,其中动态参数为重要参数,authenticity_token 为加密字符串,login 为登录的账号,password 为密码,其它参数为静态参数。由于动态参数只有 authenticity_tokenlogin 以及password ,而用户名与密码只需要将动态字符串填写对应的位置即可,所以接下来需要获取 authenticity_token 参数所对应的加密字符串。

(4) 在浏览器中退出所登录的 GitHub 账号,返回 GitHub 的登录页面,打开浏览器开发者工具,查看网页的 html 代码,然后在代码中搜索 authenticity_token 关键词,标签内 value 所对应的值为 authenticity_token 参数的加密字符串。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(5) 实现爬虫代码,首先导入所需模块,然后创建头部信息,再通过 Session 会话对象发送网络请求获取 authenticity_token 信息,最后通过所有的登陆请求参数实现 GitHub 网页的登陆请求并提取注册号码。具体代码如下:


# -*- coding: utf-8 -*-
# @Time  : 2020/5/10 23:25
# @Author : 我就是任性-Amo
# @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py
# @Software: PyCharm
# @Blog  :https://blog.csdn.net/xw1680

import requests # 导入网络请求模块
from lxml import etree # 导入数据解析模块 都是第三方模块需要安装
# pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装

class GitHubLogin(object):
 def __init__(self, username, password):
   # 构造头部信息
   self.headers = {
     "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "
            "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
     "Host": "github.com",
     "Referer": "https://github.com/login"
   }
   self.login_url = "https://github.com/login" # 登录页面地址
   self.post_url = "https://github.com/session" # 实现登录的请求地址
   self.session = requests.Session() # 创建Session会话对象
   self.user_name = username # 用户名
   self.password = password # 密码

# 获取authenticity_token信息
 def get_token(self):
   # 发送登录页面的网络请求
   response = self.session.get(self.login_url, headers=self.headers)
   if response.status_code == 200: # 判断请求是否成功
     html = etree.HTML(response.text) # 解析html
     # 提取authenticity_token信息
     token = html.xpath("//div[@id='login']/form/input[1]/@value")[0]
     # print(token) 测试是否能够获取到token
   return token # 返回信息

# 实现登录
 def login(self):
   # 请求参数
   post_data = {
     "commit": "Sign in",
     "authenticity_token": self.get_token(),
     "login": self.user_name,
     "password": self.password,
     "webauthn - support": "supported"
   }
   # 发送登录请求
   response = self.session.post(self.post_url, headers=self.headers, data=post_data)
   if response.status_code == 200: # 判断请求是否成功
     html = etree.HTML(response.text) # 解析html
     # 获取注册号码
     register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0]
     print(f"注册号码为: {register_number.text}")
   else:
     print("登录失败")

if __name__ == '__main__':
 user_name = input("请输入您的用户名:") # 获取输入的用户名
 password = input("请输入您的密码:") # 获取输入的密码
 login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码
 login.login()

执行以上代码,输入用户名与密码,即可显示获取的注册号码。如下图所示:

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

来源:https://blog.csdn.net/xw1680/article/details/106044765

标签:Python,GitHub,模拟登录
0
投稿

猜你喜欢

  • 基于PyQt5制作一个数据图表生成器

    2022-08-11 16:20:25
  • SQL提供的进行数据传输的实用程序—BCP

    2009-01-23 13:45:00
  • asp如何用FSO对象显示一个文本文件?

    2010-06-09 18:41:00
  • Codeigniter发送邮件的方法

    2023-11-15 05:08:25
  • python实现人脸签到系统

    2023-12-21 06:35:05
  • Python使用sklearn库实现的各种分类算法简单应用小结

    2022-08-05 22:37:59
  • Js的MessageBox

    2008-05-16 10:25:00
  • 长文章自动分页类

    2008-09-10 12:11:00
  • 鼠标双击滚动屏幕单击停止代码

    2008-02-21 11:44:00
  • 再谈 MySQL 数据库备份恢复和乱码问题

    2009-08-19 09:35:00
  • python实现定时发送邮件到指定邮箱

    2023-05-02 05:04:02
  • PyTorch两种安装方法

    2022-04-16 04:11:50
  • FCKeditor 编辑器实战技巧 Ⅰ

    2008-10-08 10:22:00
  • css利用锚点控制翻页

    2008-07-17 13:12:00
  • Python CategoricalDtype自定义排序实现原理解析

    2021-05-31 22:30:32
  • python简单猜数游戏实例

    2023-10-05 21:31:55
  • jQuery 选择器的使用

    2008-01-21 13:07:00
  • Oracle 自增(auto increment) 或 标识字段的建立方法

    2009-03-06 11:15:00
  • Python 用户输入和while循环的操作

    2023-07-22 22:17:33
  • Google开源的Python格式化工具YAPF的安装和使用教程

    2023-02-02 12:32:16
  • asp之家 网络编程 m.aspxhome.com