一篇文章带你了解Python之Selenium自动化爬虫

作者：Harris-H 时间：2023-12-15 14:30:53　

Python之Selenium自动化爬虫

0.介绍

Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些 * 面的浏览器（2018年开发者说暂停开发，chromedriver也可以实现同样的功能）），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏。

1.安装

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

2.下载浏览器驱动

这里用的谷歌浏览器

http://npm.taobao.org/mirrors/chromedriver/

查看自己的浏览器版本下载对应的驱动。

把解压后的驱动放在自己的python.exe 目录下。

3.实例

我之前写过3个实例

https://www.jb51.net/article/236004.htm

4.开启无头模式

是否开启无头模式（即是否需要界面）

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
option = Options() # 实例化option对象
option.add_argument("--headless") # 给option对象添加无头参数
option.headless = True #这种方式也可以
if __name__ == '__main__':
web = Chrome(executable_path='D:\PyProject\spider\venv\Scripts\chromedriver.exe',options=option) # 指定驱动位置,否则从python解释器目录下查找.
web.get("https://baidu.com")
print(web.title)

5.保存页面截图

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
option = Options() # 实例化option对象
option.add_argument("--headless") # 给option对象添加无头参数
if __name__ == '__main__':
web = Chrome()
web.maximize_window() # 浏览器窗口最大化
web.get("https://baidu.com")
print(web.title)
web.save_screenshot('baidu.png') # 保存当前网页的截图保存到当前文件夹下
web.close() # 关闭当前网页

6.模拟输入和点击

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
option = Options() # 实例化option对象
option.add_argument("--headless") # 给option对象添加无头参数
if __name__ == '__main__':
web = Chrome()
web.maximize_window() # 浏览器窗口最大化
web.get("https://baidu.com")
el = web.find_element_by_id('kw')
el.send_keys('Harris-H')
btn = web.find_element_by_id('su')
btn.click()
# web.close() # 关闭当前网页

貌似现在百度可以识别出selenium，还需要图片验证。

a.根据文本值查找节点

# 找到文本值为百度一下的节点
driver.find_element_by_link_text("百度一下")
# 根据链接包含的文本获取元素列表，模糊匹配
driver.find_elements_by_partial_link_text("度一下")

b.获取当前节点的文本

ele.text # 获取当前节点的文本
ele.get_attribute("data-click") # 获取到属性对应的value

c.打印当前网页的一些信息

print(driver.page_source) # 打印网页的源码
print(driver.get_cookies()) # 打印出网页的cookie
print(driver.current_url) # 打印出当前网页的url

d.关闭浏览器

driver.close() # 关闭当前网页
driver.quit() # 直接关闭浏览器

e.模拟鼠标滚动

from selenium.webdriver import Chrome
import time
if __name__ == '__main__':
driver = Chrome()
driver.get(
"https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=78000241_12_hao_pg&wd=selenium％20js％E6％BB％91％E5％8A％A8&fenlei=256&rsv_pq=8215ec3a00127601&rsv_t=a763fm％2F7SHtPeSVYKeWnxKwKBisdp％2FBe8pVsIapxTsrlUnas7％2F7Hoo6FnDp6WsslfyiRc3iKxP2s&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=31&rsv_sug1=17&rsv_sug7=100&rsv_sug2=0&rsv_btype=i&inputT=9266&rsv_sug4=9770")
# 1.滚动到网页底部
js = "document.documentElement.scrollTop=1000"
# 执行js
driver.execute_script(js)
time.sleep(2)
# 滚动到顶部
js = "document.documentElement.scrollTop=0"
driver.execute_script(js) # 执行js
time.sleep(2)
driver.close()

7.ChromeOptions

options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://110.52.235.176:9999") # 添加代理
options.add_argument("--headless") # 无头模式
options.add_argument("--lang=en-US") # 网页显示英语
prefs = {"profile.managed_default_content_settings.images": 2, 'permissions.default.stylesheet': 2} # 禁止渲染
options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(executable_path="D:\ProgramApp\chromedriver\chromedriver73.exe",chrome_options=options)
driver.get("http://httpbin.org/ip")

8.验证滑块移动

"""
目标：滑动验证码
1.定位按钮
2.按住滑块
3.滑动按钮
"""
import time
from selenium import webdriver
if __name__ == '__main__':
chrome_obj = webdriver.Chrome()
chrome_obj.get('https://www.helloweba.net/demo/2017/unlock/')
# 1.定位滑动按钮
click_obj = chrome_obj.find_element_by_xpath('//div[@class="bar1 bar"]/div[@class="slide-to-unlock-handle"]')
# 2.按住
# 创建一个动作链对象，参数就是浏览器对象
action_obj = webdriver.ActionChains(chrome_obj)
# 点击并且按住，参数就是定位的按钮
action_obj.click_and_hold(click_obj)
# 得到它的宽高
size_ = click_obj.size
width_ = 298 - size_['width'] # 滑框的宽度减去滑块的宽度就是向x轴移动的距离(向右)
print(width_)
# 3.定位滑动坐标
action_obj.move_by_offset(298-width_, 0).perform()
# 4.松开滑动
action_obj.release()
time.sleep(6)
chrome_obj.quit()

9.打开多窗口和页面切换

有时候窗口中有很多子tab页面。这时候肯定是需要进行切换的。selenium提供了一个叫做switch_to_window来进行切换，具体切换到哪个页面，可以从driver.window_handles中找到

from selenium import webdriver
if __name__ == '__main__':
driver = webdriver.Chrome()
driver.get("https://www.baidu.com/")
driver.implicitly_wait(2)
driver.execute_script("window.open('https://www.douban.com/')")
driver.switch_to.window(driver.window_handles[1])
print(driver.page_source)

第二个实例

if __name__ == '__main__':
from selenium import webdriver
import time
driver = webdriver.Chrome()
start_url = 'https://www.baidu.com'
start_url_1 = 'https://www.csdn.net'
driver.get(start_url)
time.sleep(5)
"""通过执行js代码，打开浏览器窗口，访问地址"""
js = 'window.open("{}")'.format(start_url_1)
driver.execute_script(js)
time.sleep(5)
"""获取浏览器所有窗口：注意点：窗口的切换是通过下标控制的"""
win = driver.window_handles
# 执行切换
driver.switch_to.window(win[0])
time.sleep(2)
driver.switch_to.window(win[1])
time.sleep(2)
driver.switch_to.window(win[0])
time.sleep(2)
driver.switch_to.window(win[1])
# 浏览器窗口的关闭
driver.close()
# 退出浏览器
driver.quit()

有时候网页会内嵌另一个html。一般称为iframe

from selenium import webdriver
driver = webdriver.Chrome()
start_url = 'https://mail.163.com/'
driver.get(start_url)
"""定位不成功，在有的情况是因为有页面的嵌套导致的
在一个html源码中有多个html页面，示例：一个html嵌套一个html
以上：又称之为iframe的嵌套
"""
# 定位嵌套位置iframe
el_iframe = driver.find_elements_by_tag_name('iframe')
# 执行iframe的切换
driver.switch_to.frame(el_iframe[0])
# 标签定位
driver.find_element_by_name('email').send_keys('邮箱账号')
driver.find_element_by_name('password').send_keys('你的邮箱密码')
driver.find_element_by_id('dologin').click()

10.Cookie操作

# 1.获取所有的cookie：
for cookie in driver.get_cookies():
print(cookie)
# 2.根据cookie的key获取value：
value = driver.get_cookie(key)
# 3.删除所有的cookie：
driver.delete_all_cookies()
# 4.删除某个cookie：
driver.delete_cookie(key)
# 添加cookie：
driver.add_cookie({"name":"password","value":"111111"})

11.模拟登录

这里模拟登录我们学校教务处。

from selenium.webdriver import Chrome
if __name__ == '__main__':
web = Chrome()
web.get('http://bkjx.wust.edu.cn/')
username = web.find_element_by_id('userAccount')
username.send_keys('xxxxxxx') # 这里填自己的学号
password = web.find_element_by_id('userPassword')
password.send_keys('xxxxxxx') # 这里填自己的密码
btn = web.find_element_by_xpath('//*[@id="ul1"]/li[4]/button')
btn.click()
# do something

因为没有滑块啥的验证，所以就很简单qwq。然后后面进行自己的操作即可。

12.使用代理

from selenium import webdriver
import time
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://ip地址') # * :端口号
# ${chromedriver_path}: chromedriver驱动存放路径
driver = webdriver.Chrome(options=options)
driver.get("https://dev.kdlapi.com/testproxy")
# 获取页面内容
print(driver.page_source)
# 延迟3秒后关闭当前窗口，如果是最后一个窗口则退出
time.sleep(3)
driver.close()

14.更换UA

from selenium import webdriver
import time
agent = 'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1'
options = webdriver.ChromeOptions()
options.add_argument('--user-agent=' + agent)
# ${chromedriver_path}: chromedriver驱动存放路径
driver = webdriver.Chrome(options=options)
driver.get("https://www.baidu.com")
# 获取页面内容
print(driver.page_source)
# 延迟3秒后关闭当前窗口，如果是最后一个窗口则退出
time.sleep(3)

15.鼠标悬停

if __name__ == '__main__':
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
driver = webdriver.Chrome()
import time
start_url = 'https://lceda.cn/'
driver.get(start_url)
# 定位到需要悬停的标签
move = driver.find_element_by_xpath('//*[@id="headerNav"]/li[1]/a/span')
# //*[@id="headerNav"]/li[1]/a/span
# 悬停之后需要点击的标签
a = driver.find_element_by_xpath('/html/body/div[1]/div[2]/div[1]/div[1]/div[3]/div[1]/a[2]')
# //*[@id="headerNav"]/li[1]/div/a[2]
# /html/body/div[1]/div[2]/div[1]/div[1]/div[1]/div/div/div[1]/ul/li[1]/div/a[2]
# 悬停点击执行
# 创建事件对象
actions = ActionChains(driver)
time.sleep(1)
# 记录操作
actions.move_to_element(move)
time.sleep(1.5)
# 悬停的点击
actions.click(a)
time.sleep(1)
# 开始执行事件
actions.perform()

16.优缺点

selenium能够执行页面上的js，对于js渲染的数据和模拟登陆处理起来非常容易。

selenium由于在获取页面的过程中会发送很多请求，所以效率非常低，所以在很多时候需要酌情使用。

来源：https://blog.csdn.net/weixin_45750972/article/details/122611986

标签：Python,Selenium,爬虫

投稿

一篇文章带你了解Python之Selenium自动化爬虫

Python之Selenium自动化爬虫

0.介绍

1.安装

2.下载浏览器驱动

3.实例

4.开启无头模式

5.保存页面截图

6.模拟输入和点击

a.根据文本值查找节点

b.获取当前节点的文本

c.打印当前网页的一些信息

d.关闭浏览器

e.模拟鼠标滚动

7.ChromeOptions

8.验证滑块移动

9.打开多窗口和页面切换

10.Cookie操作

11.模拟登录

12.使用代理

14.更换UA

15.鼠标悬停

16.优缺点

猜你喜欢

pymssql ntext字段调用问题解决方法

JS实现canvas简单小画板功能

利用aspjpeg组件自动生成产品缩略图asp源代码

Python日志模块logging简介

Python生成随机MAC地址

Python实现构建一个仪表板的示例代码

用python画圣诞树三种代码示例介绍

有趣的python小程序分享

Js的MessageBox

如何让框架的网页背景透明

asp如何实现页面执行时间及搜索时间

服务端XMLHTTP（ServerXMLHTTP in ASP）基本应用（下）

使用python实现微信小程序自动签到功能

如何用Python绘制3D柱形图

Django博客系统注册之创建用户模块应用

mysql3升级到mysql5解决乱码心得

解决Tensorflow使用pip安装后没有model目录的问题

Python读取Word文档中的Excel嵌入文件的方法详解

立足于传统行业设计

兼容IE,FF的弹出层登陆界面代码