浅谈Python中的bs4基础

作者:回忆不说话 时间:2022-11-05 16:57:47 

安装

在命令提示符框中直接输入pip install beautifulsoup4

介绍

beautifulsoup是python的一个第三方库,和xpath一样,都是用来解析html数据的。

引入


from bs4 import BeautifulSoup

使用

将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象。


bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)

注意:这样上传文档的话,BeautifulSoup里面需要两个参数。一个为open方法,一个是固定写法,也就是解析器。

open方法里面也同样需要两个参数,一个是想要解析的数据,另一个为设置编码的格式。

(1)获取网页中的title标签

print(bs.title)

(2)获取head标签及标签内部的所有其他标签

print(bs.head)

(3)获取当中的第一个a标签

print(bs.a)

注意:获取文档当中所有的xx当中第一个xx或者第一个xx里面的内容。都可以用bs.xx来获取

(4)获取指定标签的所有属性

print(bs.a.attrs)

(5)获取标签的属性

print(bs.a['href'])

(6)获取标签的文本内容。

print(bs.a.string)

注意:string获取的文本指的是本标签的文本,不包含子标签的文本

(7)contents能够获取指定标签下面的所有内容。

print(bs.body.contents)

(8)获取所有内容当中指定索引的内容

print(bs.div.contents[3])

(9)通过id和类名来找标签

print(bs.find(id='kw'))
print(bs.find(class_='shopping'))

注意:id是唯一的,通过id来找,只能找到一个,所以用find,而class不是唯一的,通过class来找,就有可能找到多个。

(10)select选择指定的标签

print(bs.select('title'))
print(bs.select('a'))

在bs4中,小数点“.”表示类名,#表示id

print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))

来源:https://blog.csdn.net/qq_39138295/article/details/81290661

标签:python,bs4
0
投稿

猜你喜欢

  • python 爬虫 实现增量去重和定时爬取实例

    2022-01-26 01:01:37
  • numpy工程实践之np.savetxt()存储数据

    2023-06-19 07:33:11
  • Python读取环境变量的方法和自定义类分享

    2022-11-13 23:47:08
  • python3 中的字符串(单引号、双引号、三引号)以及字符串与数字的运算

    2022-08-26 07:14:52
  • Python干货实战之逆向登录世界上最大的游戏平台Stream

    2023-05-13 11:25:19
  • MySQL转义字符

    2011-06-19 16:06:04
  • windows系统下Python环境的搭建(Aptana Studio)

    2021-03-16 20:40:37
  • 浅析python3字符串格式化format()函数的简单用法

    2021-03-26 15:05:49
  • Python 标准库 fileinput与文件迭代器

    2023-10-31 22:36:50
  • Html的几个小技巧

    2011-04-29 14:02:00
  • MYSQL主从库不同步故障一例解决方法

    2010-06-09 19:12:00
  • 避免重复写代码的小函数

    2008-09-21 13:41:00
  • Ext.js源码研读总结

    2009-03-04 12:06:00
  • php版淘宝网查询商品接口代码示例

    2023-11-14 12:01:54
  • 为什么JavaScript中正则表达式的test方法会出错?

    2009-03-17 12:38:00
  • Go语言使用swagger生成接口文档的方法

    2023-08-28 06:23:23
  • 关于windos10环境下编译python3版pjsua库的问题

    2021-06-04 08:12:13
  • Pyside2中嵌入Matplotlib的绘图的实现

    2021-09-15 22:34:03
  • 详解MySQL中的事务与ACID特性

    2024-01-14 21:59:38
  • python中的pygame实现接球小游戏

    2021-10-21 13:33:50
  • asp之家 网络编程 m.aspxhome.com