python使用xpath获取页面元素的使用

作者：Sun@Python 时间：2021-04-30 10:32:09　

关于python 使用xpath获取网页信息的方法？

1、xpath的使用方法？

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

常用路径表达式含义

表达式	描述
/	从根节点选取（取子节点）
//	选择的当前节点选择文档中的节点
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性
*	表示任意内容（通配符）
\|	运算符可以选取多个路径

常用功能函数

函数	用法	解释
startswith()	xpath(‘//div[starts-with(@id,”ma”)]‘)	#选取id值以ma开头的div节点
contains()	xpath(‘//div[contains(@id,”ma”)]‘)	#选取id值包含ma的div节点
and()	xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)	#选取id值包含ma的div节点
text()	_.xpath('./div/div[4]/a/em/text()')	#选取em标签下文本内容

备注：

1、html中当相同层次存在多个标签例如div,它们的顺序是从1开始，不是0
2、浏览器中使用开发者工具可以快速获取节点信息

2、实例：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time : 2021/9/7 9:35
# @Author : Sun
# @Email : 8009@163.com
# @File : sun_test.py
# @Software: PyCharm

import requests
from lxml import etree

def get_web_content():
try:
url = "htpps://***keyword=％E6％97％A0％E9％92％A2％E5％9C％88&wq=％E6％97％A0％E"
"9％92％A2％E5％9C％88&ev=1_68131％5E&pvid=afbf41410b164c1b91d"
"abdf18ae8ab5c&page=5&s=116&click=0 "
header = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"
"AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/75.0.3770.100 Safari/537.36 "}
response = requests.request(method="Get", url=url, headers=header)
result = response.text
return result
except TimeoutError as e:
return None

def parsing():
result = get_web_content()
if result is not None:
html = etree.HTML(result)
# 先获取一个大的节点，包含了想要获取的所有信息
ii = html.xpath('//*[@id="J_goodsList"]/ul/li')

for _ in ii:
# 采用循环，依次从大节点中获取小的节点内容
# ''.join() 将列表中的内容拼接成一个字符串
infoResult = {
# @href 表示：获取属性为href的内容
'href': "https:" + _.xpath('./div/div[1]/a/@href')[0],
'title': ''.join(
_.xpath('./div/div[2]/div/ul/li/a/@title')),
# text()表示获取节点i里面的文本信息
'price': _.xpath('./div/div[3]/strong/i/text()')[0],
'info': ''.join(
_.xpath('./div/div[4]/a/em/text()')).strip(),
'province': _.xpath('./div/div[9]/@data-province')[0]}
print(infoResult)
else:
raise Exception("Failed to get page information, please check！")

return None

if __name__ == '__main__':
parsing()

结果图片：

来源：https://blog.csdn.net/qq_40267002/article/details/120197707

标签：python,xpath,获取,元素

投稿

python使用xpath获取页面元素的使用

1、xpath的使用方法？

2、实例：

猜你喜欢

Python 解决logging功能使用过程中遇到的一个问题

java EJB 加密与解密原理的一个例子

PyCharm2019 安装和配置教程详解附激活码

Python数据结构之递归方法详解

python使用os模块的os.walk遍历文件夹示例

如何从SQL数据库中调用图片？

asp如何做一个检索结果带链接的检索？

python直接获取API传递回来的参数方法

Asp用正则表达式获取文章中的所有图片地址

解决pycharm下载库时出现Failed to install package的问题

Scrapy爬虫框架集成selenium及全面详细讲解

python实现最大优先队列

Python实现企业微信机器人每天定时发消息实例

matplotlib 对坐标的控制,加图例注释的操作

python跳过第一行快速读取文件内容的实例

python使用socket向客户端发送数据的方法

python实现k-means聚类算法

解决pycharm每次新建项目都要重新安装一些第三方库的问题

python修改字典键（key）的方法

javascript 通用滑动门tab类