Python lxml库的简单介绍及基本使用讲解
作者:pinuscembra 时间:2022-09-12 07:40:55
1.lxml库介绍
lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息
HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观
XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容
2.安装lxml方法
方法1:
在cmd运行窗口中输入:pip install lxml
方法2:
在Pycharm中下载
File–Setting–Project–Project Interpreter–点击右上角的“+”—
第1步
第2步
第3步
方法3:
进入这个网站进行下载:https://lxml.de/index.html
3.基本使用
我们可以利用他解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范或者不完整,lxml解析器会自动修复或补全代码,从而提高效率
实例1:
解析HTML代码块
#提取html中的数据
from lxml import etree
text = '''
<html>
<div class="clearfix">
<div class="nav_com">
<ul>
<li class="active"><a href="/" rel="external nofollow" >推荐</a></li>
<li class=""><a href="/nav/python" rel="external nofollow" >Python</a></li>
<li class=""><a href="/nav/java" rel="external nofollow" >Java</a></li>
<li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>
<li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>
<li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>
<li class=""><a href="/nav/5g" rel="external nofollow" >5G</a></li>
<li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>
<li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>
<li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>
</ul>
</div>
</div>
</html>>
</html>>
'''
#将字符串解析为html文档
html = etree.HTML(text)
#print(html)
#将字符串序列化为html
result = etree.tostring(html).decode('utf-8')
print(result)
实例2:
读取并解析html文件
#将html文件进行解析
from lxml import etree
#将html文件进行读取
html = etree.parse('data.html')
#将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)
来源:https://blog.csdn.net/pinuscembra/article/details/107453807
标签:Python,lxml库,使用
0
投稿
猜你喜欢
VS2008 和.NET 3.5 Beta2常见问题的解决方案
2007-09-23 12:33:00
javascript中的throttle和debounce浅析
2024-05-08 10:10:27
Python通过DOM和SAX方式解析XML的应用实例分享
2023-10-15 10:46:32
Python Pandas数据合并pd.merge用法详解
2022-07-18 22:15:47
python实现将html表格转换成CSV文件的方法
2023-08-25 00:48:41
MySQL和MongoDB设计实例对比
2011-06-19 15:41:01
Python实现批量检测HTTP服务的状态
2023-02-21 12:50:55
Python函数基础实例详解【函数嵌套,命名空间,函数对象,闭包函数等】
2023-12-10 15:45:59
Django代码性能优化与Pycharm Profile使用详解
2022-06-28 21:13:06
python GUI库图形界面开发之PyQt5动态(可拖动控件大小)布局控件QSplitter详细使用方法与实例
2023-06-20 22:10:04
TF-IDF算法解析与Python实现方法详解
2021-12-28 02:38:47
Python实现简易的图书管理系统
2021-09-12 06:06:21
用层模拟下拉列表框
2013-07-01 01:19:00
ASP、PHP与javascript根据时段切换CSS皮肤的代码
2008-09-01 17:26:00
使用Pycharm+PyQt5弹出子窗口的程序代码
2022-03-09 20:15:17
Python中的__new__与__init__魔术方法理解笔记
2021-12-18 14:29:26
Opencv图像处理:如何判断图片里某个颜色值占的比例
2023-09-27 16:57:40
mysql数据库乱码之保存越南文乱码解决方法
2024-01-14 12:12:24
Python的列表推导式你了解吗
2022-08-13 05:30:41
手把手带你了解python多进程,多线程
2021-07-16 02:08:42