python数据解析BeautifulSoup爬取三国演义章节示例

作者：小缘喵~ 时间：2021-03-21 13:27:27　

数据解析

数据解析就是将爬取到的整个页面中的局部的内容进行提取。python中常用的数据解析方式有以下三种：

bs4（python中独有的）
xpath（推荐，通用型强）
正则

数据解析原理概述：

首先我们知道需要解析（提取）的内容都会在标签之间或者标签对应的属性中进行存储

所以我们需进行指定标签的定位

然后将标签或者标签对应的属性中存储的数据值进行提取（解析）

Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。其只能运用在python语言中

bs4数据解析原理

实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中。而将页面源码数据加载到该对象中有两种方式，一种是将本地得html文档加载，另一种是将互联网上获取的页面源码加载通过

调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

要使用bs4首先需要先下载对应的包

pip install bs4
pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml

Beautiful Soup用法

提取整个标签数据

进行标签定位常用的几个方法如下

soup.标签名返回的是html中第一次出现的标签

soup.find(标签名) 返回第一次出现的这个标签

soup.find_all(标签名)) 返回符合要求的所有标签

soup.select(标签名) 返回符合要求的所有标签

from bs4 import BeautifulSoup #导包
html = """
<html lang="en">
<head>
<meta charset="utf-8">
<meta name="theme-color" content="#ffffff">
<base href="./" rel="external nofollow" ><link rel="stylesheet" href="styles.30d0912c1ece284d8d9a.css" rel="external nofollow" >
</head>
<body>
<div>
<p>百里守约</p>
</div>
<div class="song">
<p>前程似锦</p>
</div>
<div class="song">
<p>前程似锦2</p>
</div>
<div class="ming"> #后面改了名字
<p>以梦为马</p>
</div>
<div class="tang">
<ul>
<li><a href='http://123.com' title='qing'>清明时节</a></li>
<li><a href='http://ws.com' title='qing'>秦时明月</a></li>
<li><a href='http://xzc.com' title='qing'>汉时关</a></li>
</ul>
</div>
<flink-root></flink-root>
<script type="text/javascript" src="runtime.0dcf16aad31edd73d8e8.js"></script><script type="text/javascript" src="es2015-polyfills.923637a8e6d276e6f6df.js" nomodule></script><script type="text/javascript" src="polyfills.bb2456cce5322b484b77.js"></script><script type="text/javascript" src="main.8128365baee3dc30e607.js"></script>
</body>
</html>
"""
#实例化一个BeautifulSoup对象，并且将本地的源码数据加载到该对象中。且使用html.parser进行数据解析
soup = BeautifulSoup(html,'html.parser')
print(soup.meta) #输出<meta charset="utf-8">
print(soup.p) #输出<p>百里守约</p>

#find
print(soup.find('div')) #输出<div><p>百里守约</p></div>
#这里有多个div标签，根据属性定位，因为class为关键字，所以这里加_
print(soup.find('div',class_="song")) #<p>前程似锦</p>

#find_all
print(soup.find_all('p')) #[<p>百里守约</p>, <p>前程似锦</p>, <p>前程似锦2</p>, <p>以梦为马</p>]
print(soup.select('.tang')) #将这个选择器中的所有内容提取
print(soup.select('.tang > ul > li > a')[1]) #返回ul中的li中的所有a标签中的第二个a标签 <a href="http://ws.com" rel="external nofollow" title="qing">秦时明月</a>

提取标签中的内容和标签的属性值

#获取标签中的内容
print(soup.p.text) #输出百里守约
print(soup.find('div',class_="ming").text) #以梦为马
print(soup.find('div',class_="song"))
print(soup.select('.tang a')[0].text) #清明时节

#获取标签中的属性值，如a标签中的href值
print(soup.select('.tang a')[0]['href']) #http://123.com

案例—爬取三国演义章节及对应的内容

网站如下，网站数据的获取不是通过ajax发送的请求

import requests
from bs4 import BeautifulSoup
url = 'https://so.gushiwen.org/guwen/book_46653FD803893E4F7F702BCF1F7CCE17.aspx'
headers={
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_content = requests.get(url,headers,timeout=4).text
#print(pag_content)
#提取每章节内容的链接
soup = BeautifulSoup(pag_content,'html.parser')
a_text = soup.select('.bookcont a') #将其下面的所有a标签提取出来
for i in a_text:
#获取a标签中的href属性的值
detail_url = i['href']
#请求详细内容的url的内容
detail_content = requests.get(detail_url,headers,timeout=4).text
soup = BeautifulSoup(detail_content,'html.parser')
#提取class标签
class_content = soup.find('div',class_='contson')
#print(class_content) #该标签中有很多p标签，返回整个class_content标签
#print(class_content.text) #获取其所有的内容
with open('三国演义.txt','a',encoding='utf-8') as f:
f.write(i.text+'\r')
f.write(class_content.text+'\r')
print(f'爬取{i.text}ok')
print('全部ok')

来源：https://blog.csdn.net/qq_44159028/article/details/120508994

标签：数据解析,BeautifulSoup,三国演义

投稿

python数据解析BeautifulSoup爬取三国演义章节示例

数据解析

Beautiful Soup

Beautiful Soup用法

案例—爬取三国演义章节及对应的内容

猜你喜欢

python调用系统中应用程序的函数示例

Python实现清理微信僵尸粉功能示例【基于itchat模块】

python切片的步进、添加、连接简单操作示例

Python requests发送post请求的一些疑点

Python3.5 Json与pickle实现数据序列化与反序列化操作示例

python标准库学习之sys模块详解

Python入门教程(十四)Python的集合

对numpy中array和asarray的区别详解

Python实现手写一个类似django的web框架示例

用python制作游戏外挂

找到个很好的例子导出excel的

在vscode中启动conda虚拟环境的思路详解

关于keras中卷积层Conv2D的学习记录

js截取字符串的两种方法及区别详解

python装饰器与递归算法详解

SQL的Join使用图解教程

python 提取key 为中文的json 串方法

python 环境安装及编辑器配置方法小结

解决Python spyder显示不全df列和行的问题

python 处理数字,把大于上限的数字置零实现方法

python数据解析BeautifulSoup爬取三国演义章节示例

数据解析

Beautiful Soup

Beautiful Soup用法

案例—爬取三国演义章节及对应的内容

猜你喜欢

python调用系统中应用程序的函数示例

Python实现清理微信僵尸粉功能示例【基于itchat模块】

python切片的步进、添加、连接简单操作示例

Python requests发送post请求的一些疑点

Python3.5 Json与pickle实现数据序列化与反序列化操作示例

python标准库学习之sys模块详解

Python入门教程(十四)Python的集合

对numpy中array和asarray的区别详解

Python实现手写一个类似django的web框架示例

用python制作游戏外 挂

找到个很好的例子导出excel的

在vscode中启动conda虚拟环境的思路详解

关于keras中卷积层Conv2D的学习记录

js截取字符串的两种方法及区别详解

python装饰器与递归算法详解

SQL的Join使用图解教程

python 提取key 为中文的json 串方法

python 环境安装及编辑器配置方法小结

解决Python spyder显示不全df列和行的问题

python 处理数字,把大于上限的数字置零实现方法

用python制作游戏外挂