基于pycharm的beautifulsoup4库使用方法教程

作者:雾里看花花里看雾? 时间:2022-12-05 22:47:05 

1.beautifulsoup4库安装

第一步:在控制台输入如下命令,安 * eautifulsoup4库。

pip install beautifulsoup4

基于pycharm的beautifulsoup4库使用方法教程

第三步:pycharm中,点击file——settings——project——python interpreter——点击+号——搜索beautifulsoup4——install package!

基于pycharm的beautifulsoup4库使用方法教程

这样就可以在.py文件中导入模块了!

2.beautifulsoup4库使用

import requests
# 虽然库名叫做beautiful4 但是在导入时 使用的是其缩写bs4 其中BeautifulSoup是一个类名
from bs4 import BeautifulSoup

url = 'https://www.baidu.com/s?'
# 由于一般网站都是供用户访问 如果检测到User-Agent是黑客或者其他可能拒绝访问 故此处模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 以防乱码 此处将其编码设置为utf-8 因为有中文
response.encoding = 'utf-8'
# print(response.text)
# 使用的解析器是html.parser 注意是.奥
soup = BeautifulSoup(response.text, 'html.parser')
# 打印解析后的结果
print(soup.prettify())

需要讲解的都在代码注释中了奥!

3.beautifulsoup4库基本元素

beautifulsoup4库是解析、遍历、维护“标签树”的功能库。

首先来看BeautifulSoup库解析器,前两个比较常用!

基于pycharm的beautifulsoup4库使用方法教程

在上述代码的基础上,增加如下几行,结合基本元素的使用,可得到如图所示。

需要注意的是,.string可以跨标签,所以很有可能结果也为注释,为了区分是标签内的字符串还是注释,可以通过打印类型来判断。

基于pycharm的beautifulsoup4库使用方法教程

基于pycharm的beautifulsoup4库使用方法教程

基于pycharm的beautifulsoup4库使用方法教程

接下来,看一下BeautifulSoup库的遍历,其中画红框的迭代遍历,可以用于for in循环中。

4.beautifulsoup4库的HTML查找方法

find_all( name , attrs , recursive , string , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

name 参数可以对名字为 name 的标签进行检索。

attrs参数可以对标签属性值为attrs的标签进行检索。

recursive参数表示是否对子孙全部检索,默认是TRUE,如果只想搜索当前节点的儿子信息,可以置其为FALSE。

string 参数可以标签中的字符串内容进行检索。

基于pycharm的beautifulsoup4库使用方法教程

5.补充Json(Javascript Object Notation)

我们学过js的或者java的,应该对Json不陌生吧!

Json是一种有类型的键值对!

需要注意的是,键和值都需要用"“括起来,如果值是整数,则可以不用”"!

如果值是多值,则可以用[,];如果值是键值对,则可以用{:,:,},可以嵌套使用。

基于pycharm的beautifulsoup4库使用方法教程

JSON一般用于接口,而YAML是无类型键值对,一般用于配置文件。

来源:https://blog.csdn.net/qq_43779149/article/details/122500994

标签:pycharm,beautifulsoup4
0
投稿

猜你喜欢

  • SQLite数据库管理相关命令的使用介绍

    2024-01-27 12:41:00
  • Python GUI库PyQt5图形和特效样式QSS介绍

    2022-05-03 09:25:34
  • 详解Go语言如何使用标准库sort对切片进行排序

    2024-04-30 10:07:53
  • jquery ajax 局部刷新小案例

    2024-05-02 17:05:01
  • Oracle如何直接运行OS命令(下)第1/2页

    2010-07-30 13:26:00
  • yahoo 页面的标签效果

    2024-04-10 10:38:14
  • 如何安装多版本python python2和python3共存以及pip共存

    2021-03-23 05:08:58
  • sql server 2008 忘记sa密码的解决方法

    2024-01-26 22:48:16
  • Python量化交易实战之使用Resample函数转换“日K”数据

    2023-07-30 07:31:11
  • Python实现贪吃蛇小游戏(单人模式)

    2023-09-26 23:14:42
  • 使用pandas计算环比和同比的方法实例

    2021-02-15 18:06:34
  • 理解JavaScript作用域链

    2010-01-23 11:31:00
  • python strip()函数 介绍

    2023-06-15 11:59:47
  • Python如何实现远程方法调用

    2022-11-11 20:42:15
  • 使用python实现excel的Vlookup功能

    2023-05-01 20:15:15
  • Golang 发送http请求时设置header的实现

    2024-05-08 10:45:45
  • 用python打开摄像头并把图像传回qq邮箱(Pyinstaller打包)

    2021-04-26 22:34:55
  • MySQL安全性指南(3)(转)

    2010-07-26 13:07:00
  • XML的语法、结构以及相关的一些技术

    2007-10-23 07:27:00
  • 内部系统是否也需要用户体验设计?

    2010-11-30 21:47:00
  • asp之家 网络编程 m.aspxhome.com