Python实战使用XPath采集数据示例解析

作者:极客飞虎 时间:2022-02-25 09:00:24 

lxml

lxml 是 Python 的一个库,用于解析和呈现 XML 和 HTML。它支持多种内置和第三方 XML 和 HTML 标记,例如 <a><img><form><ul><li><ol><dl><dt><dd> 等。lxml 还支持使用正则表达式来解析和呈现 XML 和 HTML。

Python实战使用XPath采集数据示例解析

本文我们就介绍lxml的使用方法,我们使用lxml获取我们想要的数据。

发送请求

首先,我们要进行数据来源分析,知道我们的需求是什么?

明确需求:

  • 明确采集网站是什么?

  • 明确采集数据是什么?

我们都玩过4399小游戏,我们想获取游戏名称和游戏链接,并保存下来。首先,我们导入相关的库文件。

import csv
import requests
from lxml import etree

接下来,我们可以发送请求,获取网页源代码,代码如下。

url = 'https://www.4399.com/flash_fl/2_1.htm'
headers = {
   'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
res = requests.get(url, headers=headers)
res.encoding = res.apparent_encoding

这段代码是一个 Python 的 requests 模块的示例代码,用于从 https://www.4399.com/flash_fl/2_1.htm 这个网站上获取数据并将其转换为 HTML 格式。

首先,我们定义了一个 url 变量,它包含了要从网站上获取数据的 URL。然后,我们使用 headers 字典来设置请求头,包括 user-agent 头部,用于指定浏览器的 User-Agent 信息。

接下来,我们使用 requests.get() 函数来发送一个 HTTP GET 请求,并将 headers 字典作为请求头传递给它。这个函数会返回一个 Response 对象,我们可以使用 res.encoding 属性来获取请求的编码方式,并将其设置为 res.apparent_encoding,以便在输出 HTML 时使用相同的编码方式。

最后,我们将请求的编码方式设置为浏览器的默认编码方式,以便在输出 HTML 时使用相同的编码方式。

解析数据

接下来,我们用xpath解析数据。我们用开发者工具定位到标签位置。

html_data = etree.HTML(res.text)
lis = html_data.xpath('//*[@class="bre m15"]//ul/li')
for li in lis:
   href = li.xpath('./a/@href')[0]
   title = li.xpath('./a/img/@alt')[0]

接下来,我们使用 html_data.xpath 方法来解析 HTML 文档中的 ul 和 li 元素,并将它们存储在 lis 变量中。

最后,我们使用 for 循环遍历 lis,并使用 li.xpath 方法来获取每个 li 元素的 a 元素的 href 和 alt 属性,并将它们存储在 href 和 title 变量中。 我们运行结果之后,我们还要对链接进行拼接。

Python实战使用XPath采集数据示例解析

保存数据

接下来就是保存数据,先写入头文件。

f = open('4399小游戏.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['游戏名称', '游戏网站'])
csv_writer.writeheader()

这段代码中,我们首先使用 Python 的 open() 函数打开了一个名为 "4399小游戏.csv" 的文件,文件模式为 a,表示追加模式。

然后,我们使用 Python 的 csv 模块创建了一个名为 csv_writer 的 DictWriter 对象,并使用 writeheader() 方法来写入表头。

最后,我们使用 write() 方法向文件中写入数据,数据内容为一个字典对象。

这段代码的作用是将一个字典对象写入到文件中,其中包含了游戏名称和游戏网站两个字段的数据。

需要注意的是,在写入数据之前,我们需要使用 csv.DictWriter() 函数来创建一个 DictWriter 对象,并使用 fieldnames 参数来指定字段名称。此外,我们还需要使用 newline='' 参数来避免在 Windows 系统中出现换行符问题。 '''

dit = {
   '游戏名称': title,
   '游戏网站': data_url,
}
csv_writer.writerow(dit)

'''

Python实战使用XPath采集数据示例解析

来源:https://juejin.cn/post/7220782242254798907

标签:Python,XPath,采集数据
0
投稿

猜你喜欢

  • Yii配置文件用法详解

    2024-05-11 09:55:39
  • mysql5.7.17安装使用图文教程

    2024-01-19 16:08:43
  • Python之Matplotlib文字与注释的使用方法

    2022-09-09 10:36:51
  • CSS实现垂直居中的5种方法

    2009-03-04 12:53:00
  • shtml网页SSI使用详解

    2008-02-20 19:13:00
  • 基于Python log 的正确打开方式

    2021-05-29 21:42:59
  • Python定时器线程池原理详解

    2022-02-10 02:09:07
  • 举例讲解Python中的list列表数据结构用法

    2021-05-07 08:02:53
  • Python字符串对齐、删除字符串不需要的内容以及格式化打印字符

    2021-09-17 10:46:33
  • Python通过调用有道翻译api实现翻译功能示例

    2023-12-11 09:44:04
  • Python人工智能之波士顿房价数据分析

    2021-09-23 19:43:35
  • PyTorch实现ResNet50、ResNet101和ResNet152示例

    2023-10-16 05:44:39
  • python获取各操作系统硬件信息的方法

    2021-03-29 17:09:05
  • 部署Python的框架下的web app的详细教程

    2022-06-03 08:20:57
  • Pytorch中torch.flatten()和torch.nn.Flatten()实例详解

    2021-09-15 06:39:43
  • 恢复master..xp_logattach(log explorer)

    2010-07-01 19:19:00
  • 讲解Python中运算符使用时的优先级

    2022-12-28 14:40:17
  • Django通过json格式收集主机信息

    2022-03-23 19:58:49
  • TensorFlow索引与切片的实现方法

    2022-11-08 16:00:12
  • 聊聊python中的load、loads实现反序列化的问题

    2023-07-20 04:38:52
  • asp之家 网络编程 m.aspxhome.com