Python 网页解析HTMLParse的实例详解

作者：qindongliang1922 时间：2022-08-29 06:27:25　

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后，下一步我们就应该解析网页，提取我们所需要的内容了，在python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式，但新手用起来还是比较容易的，看下面的例子：

现在一个模拟的html文件：

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>

需求是，提取出标题的属性值，以及内容：

代码如下：

import html.parser as h

class MyHTMLParser(h.HTMLParser):
a_t=False
def handle_starttag(self, tag, attrs):
#print("开始一个标签:",tag)
print()
if str(tag).startswith("title"):
print(tag)
self.a_t=True
for attr in attrs:
print(" 属性值：",attr)

def handle_endtag(self, tag):
if tag == "title":
self.a_t=False
#print("结束一个标签:",tag)

def handle_data(self, data):
if self.a_t is True:
print("得到的数据: ",data)

p=MyHTMLParser()

p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>")

p.close()

运行结果如下：

title
属性值： ('id', 'main')
属性值： ('mouse', '你好')
得到的数据: 我是标题

主要的技术就是继承了HTMLParser类，然后重写了里面的一些方法，来完成自己的业务，从上面的代码里，发现如果想获取某个标签的内容，还是比较麻烦的，当然这是python里面最简单的html解析方式，还有很多其他组件，scrapy等等，里面支持Xpath路径解析，使用起来非常简洁清爽。

解析代码学会之后，我们就可以将使用urllib包，抓取到的数据交给htmlparser解析，从而提取出我们所需要的内容。

来源：http://qindongliang.iteye.com/blog/2142956

标签：Python,网页解析,HTMLParse

投稿

Python 网页解析HTMLParse的实例详解

猜你喜欢

javascript 跨浏览器的事件系统

关于go-zero服务自动收集问题分析

利用XMLHTTP批量生成静态页的函数

tesseract-ocr使用以及训练方法

python opencv 批量改变图片的尺寸大小的方法

PHP面向对象程序设计之类常量用法实例

Python+NumPy绘制常见曲线的方法详解

如何使用w3 upload上传组件上传文件？

python tkinter基本属性详解

python实现堆和索引堆的代码示例

JS图片懒加载的优点及实现原理

设计良好网页的4项原则

django和vue互传图片并进行处理和展示

介绍Python的Urllib库的一些高级用法

Python数据报表之Excel操作模块用法分析

Django REST framework 限流功能的使用

python判断完全平方数的方法

pytorch 状态字典:state_dict使用详解

django的模型类管理器——数据库操作的封装详解

python selenium登录豆瓣网过程解析