浅谈Python中的bs4基础
作者:回忆不说话 时间:2022-11-05 16:57:47
安装
在命令提示符框中直接输入pip install beautifulsoup4
介绍
beautifulsoup是python的一个第三方库,和xpath一样,都是用来解析html数据的。
引入
from bs4 import BeautifulSoup
使用
将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象。
bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)
注意:这样上传文档的话,BeautifulSoup里面需要两个参数。一个为open方法,一个是固定写法,也就是解析器。
open方法里面也同样需要两个参数,一个是想要解析的数据,另一个为设置编码的格式。
(1)获取网页中的title标签
print(bs.title)
(2)获取head标签及标签内部的所有其他标签
print(bs.head)
(3)获取当中的第一个a标签
print(bs.a)
注意:获取文档当中所有的xx当中第一个xx或者第一个xx里面的内容。都可以用bs.xx来获取
(4)获取指定标签的所有属性
print(bs.a.attrs)
(5)获取标签的属性
print(bs.a['href'])
(6)获取标签的文本内容。
print(bs.a.string)
注意:string获取的文本指的是本标签的文本,不包含子标签的文本
(7)contents能够获取指定标签下面的所有内容。
print(bs.body.contents)
(8)获取所有内容当中指定索引的内容
print(bs.div.contents[3])
(9)通过id和类名来找标签
print(bs.find(id='kw'))
print(bs.find(class_='shopping'))
注意:id是唯一的,通过id来找,只能找到一个,所以用find,而class不是唯一的,通过class来找,就有可能找到多个。
(10)select选择指定的标签
print(bs.select('title'))
print(bs.select('a'))
在bs4中,小数点“.”表示类名,#表示id
print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))
来源:https://blog.csdn.net/qq_39138295/article/details/81290661
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
python 爬虫 实现增量去重和定时爬取实例
numpy工程实践之np.savetxt()存储数据
![](https://img.aspxhome.com/file/2023/5/59655_0s.png)
Python读取环境变量的方法和自定义类分享
python3 中的字符串(单引号、双引号、三引号)以及字符串与数字的运算
Python干货实战之逆向登录世界上最大的游戏平台Stream
![](https://img.aspxhome.com/file/2023/0/103150_0s.png)
MySQL转义字符
windows系统下Python环境的搭建(Aptana Studio)
![](https://img.aspxhome.com/file/2023/1/131121_0s.png)
浅析python3字符串格式化format()函数的简单用法
Python 标准库 fileinput与文件迭代器
Html的几个小技巧
MYSQL主从库不同步故障一例解决方法
避免重复写代码的小函数
![](https://img.aspxhome.com/file/UploadPic/20089/21/2008921134758493s.gif)
Ext.js源码研读总结
php版淘宝网查询商品接口代码示例
为什么JavaScript中正则表达式的test方法会出错?
Go语言使用swagger生成接口文档的方法
![](https://img.aspxhome.com/file/2023/4/100794_0s.jpg)
关于windos10环境下编译python3版pjsua库的问题
![](https://img.aspxhome.com/file/2023/3/85293_0s.png)
Pyside2中嵌入Matplotlib的绘图的实现
![](https://img.aspxhome.com/file/2023/7/107077_0s.png)