python爬虫爬取笔趣网小说网站过程图解

作者:老鱼的故事 时间:2022-10-06 10:56:50 

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

来源:https://www.cnblogs.com/oldfish123/p/11874387.html

标签:python,爬虫,爬取,小说,网站
0
投稿

猜你喜欢

  • 详细介绍查询优化技术在现实系统中的运用

    2009-01-04 13:34:00
  • 详解Python中datetime库的使用

    2021-03-31 20:14:13
  • 如何基于python3和Vue实现AES数据加密

    2023-08-08 23:47:37
  • PHP字符串中提取文件名的实例方法

    2023-06-12 18:57:32
  • MySQL数据库常见的出错代码及出错信息

    2008-05-27 12:29:00
  • oracle跨库查询的方法

    2023-07-18 03:15:35
  • Python Playwright 文本框操作技巧

    2023-01-15 20:59:21
  • 创建mysql表分区的方法

    2024-01-16 11:48:37
  • python入门之语句(if语句、while语句、for语句)

    2022-01-25 20:01:07
  • Python 中如何使用 virtualenv 管理虚拟环境

    2022-02-20 00:57:44
  • ThinkPHP视图查询详解

    2024-05-03 15:52:08
  • Python 基础教程之包和类的用法

    2021-10-31 16:58:19
  • JavaScript随机打乱数组顺序之随机洗牌算法

    2024-05-03 15:33:00
  • HTML中事件触发列表与解说

    2007-10-22 12:50:00
  • python 5个实用的技巧

    2022-12-23 14:17:05
  • 瞬间的快感之细节提升用户满意度

    2010-11-17 19:19:00
  • VScode编写第一个Python程序HelloWorld步骤

    2023-06-07 02:58:33
  • django之自定义软删除Model的方法

    2023-11-17 21:31:12
  • Python连接Mssql基础教程之Python库pymssql

    2022-01-24 04:47:20
  • MySql中sql语句执行过程详细讲解

    2024-01-18 07:44:26
  • asp之家 网络编程 m.aspxhome.com