python如何爬取网页中的文字

作者:Ly 时间:2021-04-05 03:55:53 

用Python进行爬取网页文字的代码:


#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 下载一个网页
url = 'https://www.biquge.tw/75_75273/3900155.html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 编码方式
response.encoding='utf-8'
# 目标小说主页的网页源码
html = response.text
print(html)

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

内容扩展:

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select('???')

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

<p>Something</p>

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

来源:https://www.py.cn/spider/guide/18219.html

标签:python,爬取网页
0
投稿

猜你喜欢

  • python实现五子棋程序

    2022-05-26 23:24:31
  • 浏览器 cookie 限制

    2008-05-23 13:09:00
  • Numpy之reshape()使用详解

    2022-11-12 22:03:02
  • Python通过DOM和SAX方式解析XML的应用实例分享

    2023-10-15 10:46:32
  • 正则表达式30分钟入门教程

    2007-08-27 10:38:00
  • 利用python绘制正态分布曲线

    2021-04-09 06:59:40
  • MYSQL教程:如何选择正确的数据列类型

    2009-02-27 16:05:00
  • SQL学习笔记一SQL基础知识

    2011-09-30 11:24:33
  • PHP中大于2038年时间戳的问题处理方案

    2023-07-03 14:33:26
  • 详解Python静态网页爬取获取高清壁纸

    2023-10-18 08:27:42
  • Python pandas之求和运算和非空值个数统计

    2023-11-19 03:04:59
  • tensorflow 模型权重导出实例

    2022-10-14 06:25:25
  • Python Flask前端自动登录功能实现详解

    2021-12-13 17:36:17
  • Django 多环境配置详解

    2022-01-25 06:38:49
  • SQL SERVER查询所有数据库名,表名,和字段名的语句

    2012-01-05 19:25:26
  • asp实现本周的一周时间列表的代码

    2011-04-06 10:45:00
  • Python中拆分具有多个分隔符的字符串方法实例

    2022-07-01 00:38:20
  • Python使用eval函数执行动态标表达式过程详解

    2022-05-29 07:03:30
  • Windows中安装使用Virtualenv来创建独立Python环境

    2023-10-21 19:44:52
  • 加固SQL参数与存储过程

    2012-03-12 19:44:08
  • asp之家 网络编程 m.aspxhome.com