python构建基础的爬虫教学

作者:please1748 时间:2023-09-28 04:24:38 

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、

beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对脚本之家的支持。

来源:https://jingyan.baidu.com/article/adc81513b31b36f722bf7360.html

标签:python,基础,爬虫
0
投稿

猜你喜欢

  • Mysql数据库事务的脏读幻读及不可重复读详解

    2024-01-16 04:27:20
  • 在python中按照特定顺序访问字典的方法详解

    2023-02-09 07:14:34
  • python中的annotate函数使用

    2021-04-10 01:52:59
  • Python实现二叉堆

    2023-12-24 13:40:48
  • Python中的hypot()方法使用简介

    2021-06-02 03:44:37
  • 简析 IOS 程序图标的设计

    2011-04-28 09:39:00
  • MySQL数据库常见的出错代码及出错信息

    2008-05-27 12:29:00
  • 详解在python操作数据库中游标的使用方法

    2024-01-27 10:51:41
  • go gin 正确读取http response body内容并多次使用详解

    2024-04-25 15:06:34
  • MySQL启用慢查询日志记录方法

    2024-01-25 11:42:16
  • Vue中如何优雅的捕获 Promise 异常详解

    2023-07-02 16:56:14
  • MySQL Slave 触发 oom-killer解决方法

    2024-01-20 14:44:35
  • Javascript模拟加速运动与减速运动代码分享

    2024-06-07 15:27:46
  • Oracle性能究极优化 下

    2010-07-30 13:25:00
  • 关于networkx返回图的邻接矩阵问题

    2021-04-09 13:10:35
  • 基于tensorflow权重文件的解读

    2023-11-04 02:05:35
  • 解决win10 vscode 无法激活python 虚拟环境的问题

    2023-10-09 04:23:25
  • 调整优化您的LAMP应用程序的5种简单方法

    2024-06-05 09:38:57
  • 用一个案例讲解SQL Server数据库恢复

    2008-11-28 14:17:00
  • Google首页的CSS Sprite

    2007-09-29 21:36:00
  • asp之家 网络编程 m.aspxhome.com