Python爬虫Xpath定位数据的两种方法

作者:生活明朗,万物可爱,人间值得,未来可期 时间:2022-07-03 16:36:53 

方法一:直接右键,将文章路径复制下来点击Copy full Xpath

使用selenium+lxml中的etree进行配合使用,使用etree解析html网页

import requests
from lxml import etree
import time
import socket
import csv
from selenium import webdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
#禁止图片和css加载
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分
# wb = Chrome(options=option)
wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待)
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)

然后获取网页数据,这里表明哪怕后面出错了,仍然可以延续wb的位置继续控制浏览器

data = wb.page_source
time.sleep(3)
data = wb.page_source
time.sleep(3)
page_all.append(data)
html = etree.HTML(data)
company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company )

Python爬虫Xpath定位数据的两种方法

方法二:使用@制定标签属性,搜索指定位置

这样的好处就是,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,用@制定某种属性的标签,下载相关数据

"//div[@class='mainArea']/ul/li"

使用//div[@class=‘mainArea’]的意思是:从根部(//)查找 class值为 mainArea的Node.

所以,那么就很简单了 //某元素[@class=‘CLASS值’]

大家可以按照这个公式来查找 class的元素了。

剩下的 /ul/li 表示的是,继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。

来源:https://blog.csdn.net/weixin_39559994/article/details/125647638

标签:Python,Xpath,定位
0
投稿

猜你喜欢

  • Pycharm2020最新激活码|永久激活(附最新激活码和插件的详细教程)

    2023-11-16 07:44:20
  • python使用webbrowser浏览指定url的方法

    2023-10-24 03:33:31
  • 从0编写区块链之用python解释区块链最基本原理

    2022-07-20 10:08:24
  • Django 开发调试工具 Django-debug-toolbar使用详解

    2022-03-18 02:31:07
  • 机器学习python实战之决策树

    2021-07-21 12:46:13
  • ASP IE地址栏参数的判断

    2011-04-03 11:21:00
  • Python中的复杂数据类型(list、tuple)

    2023-06-07 10:10:19
  • PYTHON正则表达式 re模块使用说明

    2021-11-25 15:06:50
  • python excel多行合并的方法

    2021-09-25 22:36:29
  • 使用Python和xlwt向Excel文件中写入中文的实例

    2023-08-27 19:18:08
  • Numpy之reshape()使用详解

    2022-11-12 22:03:02
  • Pytorch十九种损失函数的使用详解

    2021-07-19 22:23:07
  • Python3 使用pip安装git并获取Yahoo金融数据的操作

    2023-11-17 21:56:48
  • JavaScript获取时区实现过程解析

    2023-08-22 20:58:34
  • Python爬虫实现抓取电影网站信息并入库

    2023-12-25 02:42:32
  • 使用Python爬取最好大学网大学排名

    2023-09-17 09:24:45
  • webpack学习教程之publicPath路径问题详解

    2023-07-16 06:09:52
  • python3实现读取chrome浏览器cookie

    2023-10-18 13:18:44
  • innerHTML 引发“未知的运行时错误”

    2008-04-09 13:06:00
  • 如何做一个优秀的设计?

    2009-02-04 15:38:00
  • asp之家 网络编程 m.aspxhome.com