Python 文档解析lxml库的使用详解
作者:小嗷犬 发布时间:2022-01-24 10:42:38
标签:Python,lxml,库
1.lxml库简介
lxml 是 Python 常用的文档解析库,能够高效地解析 HTML/XML 文档,常用于 Python 爬虫。
lxml 为第三方库,需要我们通过pip命令安装:
pip install lxml
2.lxml库方法介绍
lxml 库提供了一个
etree
模块,该模块专门用来解析 HTML/XML 文档,让我们先导入模块:
from lxml import etree
使用
etree
模块的HTML()
方法可以创建 HTML 解析对象:
from lxml import etree
parse_html = etree.HTML(html)
HTML()
方法能够将 HTML 标签字符串解析为 HTML 文件,并且可以自动修正 HTML 文本:
from lxml import etree
html_str = '''
<div>
<ul>
<li><a href="www.python.org">Python</a></li>
<li><a href="www.java.com">Java</a>
<li><a href="www.csdn.net">CSDN</a></li>
</ul>
</div>
'''
html = etree.HTML(html_str)
# tostring()将标签元素转换为字符串输出,注意:result为字节类型
result = etree.tostring(html)
print(result.decode('utf-8'))
上述代码我故意在Java那一行少写一个</li>,可以看到输出会自动补全:
<html><body><div>
<ul>
<li><a href="www.python.org">Python</a></li>
<li><a href="www.java.com">Java</a></li>
<li><a href="www.csdn.net">CSDN</a></li>
</ul>
</div>
</body></html>
解析为 HTML 文件后,我们可以使用
xpath()
方法来提取我们需要的数据了:
from lxml import etree
html_str = '''
<div>
<ul>
<li><a href="www.python.org">Python</a></li>
<li><a href="www.java.com">Java</a></li>
<li><a href="www.csdn.net">CSDN</a></li>
</ul>
</div>
'''
html=etree.HTML(html_str)
xpath_bds='//@href'
r_list = html.xpath(xpath_bds)
print(r_list)
xpath()
方法使用一个XPath
表达式作为参数,上面那段程序提取出了页面里的所有网址。
详细的
XPath
表达式语法,请参见菜鸟教程:
https://www.runoob.com/xpath/xpath-syntax.html
3.代码实例
lxml 库在爬虫中的使用大概就是这么多了,接下让我们结合前一篇文章(Python 网页请求:requests库的使用),来写一个普通的爬虫程序吧:
import os
import sys
import requests
from lxml import etree
x = requests.get('https://www.csdn.net/')
html = etree.HTML(x.text)
xpath_bds = '//img/@src'
img_list = html.xpath(xpath_bds)
# 创建img文件夹
os.chdir(os.path.dirname(sys.argv[0]))
if not os.path.exists('img'):
os.mkdir('img')
print('创建文件夹成功')
else:
print('文件夹已存在')
# 下载图片
for i in range(len(img_list)):
img = requests.get(img_list[i]).content
if img_list[i].endswith('.jpg'):
with open(f'./img/{i}.jpg', 'wb') as f:
f.write(img)
elif img_list[i].endswith('.jpeg'):
with open(f'./img/{i}.jpeg', 'wb') as f:
f.write(img)
elif img_list[i].endswith('.png'):
with open(f'./img/{i}.png', 'wb') as f:
f.write(img)
else:
print(f'第{i + 1}张图片格式不正确')
continue
print(f'第{i + 1}张图片下载成功')
这个爬虫程序爬取了CSDN首页的所有
.jpg
、.jpeg
、.png
格式的图片,快来自己尝试一下吧!
来源:https://blog.csdn.net/qq_63585949/article/details/126755821
0
投稿
猜你喜欢
- File System的缩写是fs,该模块提供本地文件的读写能力。Nodejs导入文件系统模块(fs)语法如下所示:var fs = req
- Linux默认python命令指向的是/usr/bin下的python,这个python指向同目录下python2,以及pip默认也是pyt
- 注册模块default.asp 代码如下:<!DOCTYPE html PUBLIC "-//
- Python的web模板,其实就是在HTML文档中使用控制语句和表达语句替换HTML文档中的变量来控制HTML的显示格式,Python的we
- 本文实例讲述了php实现转换html格式为文本格式的方法。分享给大家供大家参考,具体如下:有时候需要转换html格式的字符串为文本,但又需要
- 1.问题复现:有时候我们去点击.py文件 文件里明明有打印信息,却一闪而过,没有任何显示比如以下内容#!/usr/local/bin/pyt
- 就在前几天还是二十多度的舒适温度,今天一下子就变成了个位数,小编已经感受到冬天寒风的无情了。之前对获取天气都是数据上的搜集,做成了一个数据表
- 前言对Python游戏有所了解的朋友都知道,在2D的游戏制作中,经常会用到一个模块pygame,他能帮助我们实现很多方便使用的功能,例如绘制
- 我的理解为什么会用到python-docx,因为近段时间下载了大量网文,但格式都是html的,我个人习惯使用word处理文字,于是就想法设法
- MySQL性能优化在互联网公司MySQL的使用非常广泛,大家经常会有MySQL性能优化方面的需求。整理了一些在MySQL优化方面的实用技巧。
- 禁用admin中models的编辑链接和添加删除按钮方法如下:class MyModelAdmin(models.ModelAdmin):
- 一、Python安装:最新Python版本的下载和安装可以参考我的这篇博客,里面有步骤说明和注意事项。二、手动更新pip:在安装第三方插件时
- Python 开发学习的意义:(1)学习相关安全工具原理.(2)掌握自定义工具及拓展开发解决实战中无工具或手工麻烦批量化等情况.(3)在二次
- 详解 sys.argv关于 sys.argv 可得好好说道说道了。当初我可是被折磨的不要不要的,上一章节我们提到 argv 是获取程序外部的
- 核心代码:#!/usr/bin/python# -*- coding: UTF-8 -*-import smtplibimport osim
- 1.随机翻转(水平和垂直)torchvision.transforms.RandomVerticalFlip函数和torchvision.t
- 项目开始时是一个关键时刻,选择会对项目产生长期的影响。有很多关于如何开始使用Django框架的教程,但很少讨论如何专业地使用Django,或
- 一、javascript是面向对象的编程语言封装:把相关的信息(无论数据或方法)存储在对象中的能力聚集:把一个对象存储在另一个对象内的能力继
- 由于刚刚学习python,对PyCharm也不是很熟悉,在成功运行多个死循环程序而没有关闭它的情况下,PyCharm成功的经常无响应,反应缓
- 1005:创建表失败1006:创建数据库失败1007:数据库已存在,创建数据库失败1008:数据库不存在,删除数据库失败1009:不能删除数