Python 网页解析HTMLParse的实例详解
作者:qindongliang1922 时间:2022-08-29 06:27:25
Python 网页解析HTMLParse的实例详解
使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:
现在一个模拟的html文件:
<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>
需求是,提取出标题的属性值,以及内容:
代码如下:
import html.parser as h
class MyHTMLParser(h.HTMLParser):
a_t=False
def handle_starttag(self, tag, attrs):
#print("开始一个标签:",tag)
print()
if str(tag).startswith("title"):
print(tag)
self.a_t=True
for attr in attrs:
print(" 属性值:",attr)
def handle_endtag(self, tag):
if tag == "title":
self.a_t=False
#print("结束一个标签:",tag)
def handle_data(self, data):
if self.a_t is True:
print("得到的数据: ",data)
p=MyHTMLParser()
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>")
p.close()
运行结果如下:
title
属性值: ('id', 'main')
属性值: ('mouse', '你好')
得到的数据: 我是标题
主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。
解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。
来源:http://qindongliang.iteye.com/blog/2142956
标签:Python,网页解析,HTMLParse
0
投稿
猜你喜欢
javascript 跨浏览器的事件系统
2010-07-28 19:34:00
关于go-zero服务自动收集问题分析
2024-04-26 17:29:51
利用XMLHTTP批量生成静态页的函数
2008-09-10 11:07:00
tesseract-ocr使用以及训练方法
2022-07-06 17:23:37
python opencv 批量改变图片的尺寸大小的方法
2021-09-13 12:55:01
PHP面向对象程序设计之类常量用法实例
2023-11-22 15:17:39
Python+NumPy绘制常见曲线的方法详解
2022-01-11 06:14:43
如何使用w3 upload上传组件上传文件?
2010-05-16 15:11:00
python tkinter基本属性详解
2021-11-22 06:18:35
python实现堆和索引堆的代码示例
2021-09-21 21:42:05
JS图片懒加载的优点及实现原理
2024-04-18 09:45:34
设计良好网页的4项原则
2009-04-24 12:48:00
django和vue互传图片并进行处理和展示
2021-04-24 20:39:16
介绍Python的Urllib库的一些高级用法
2023-03-29 08:28:06
Python数据报表之Excel操作模块用法分析
2023-09-24 22:16:59
Django REST framework 限流功能的使用
2023-11-11 07:09:35
python判断完全平方数的方法
2023-07-12 06:43:13
pytorch 状态字典:state_dict使用详解
2023-01-16 11:42:52
django的模型类管理器——数据库操作的封装详解
2024-01-12 19:12:53
python selenium登录豆瓣网过程解析
2021-12-15 09:52:49