python爬虫urllib中的异常模块处理
作者:苏凉.py 发布时间:2022-12-06 10:42:33
urllib中的异常处理
在我们写爬虫程序时,若出现url中的错误,那么我们就无法爬取我们想要的内容,对此,我们引入了urllib中的异常处理。
url的组成部分
URL由6个部分组成:eg:
https://www.baidu.com/s?wd=易烊千玺
协议(http/https)
主机(www.baidu.com)
端口号(80/443)
路径(s)
参数(wd=易烊千玺)
锚点
常见的端口号:
http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
URLError
通常来说,URLError报错通常为url地址中主机部分的错误:
实例:
url = 'https://www.baidu.com1/'
运行结果:
urllib.error.URLError: <urlopen error [Errno 11001] getaddrinfo failed
HTTPError
这个异常的通常是url地址中参数或是路径的错误。
实例:
url = 'https://www.jianshu.com/p/3388cf148dba1'
运行结果:
urllib.error.HTTPError: HTTP Error 404: Not Found
简介
HTTPError类是URLError类的子类
导入的包urllib.error.HTTPError/urllib.error.URLError
http错误:http错误是针对浏览器无法连接到服务器而增加的出来的错误提示,引导并告诉浏览者该页是出了什么问题。
通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更健壮,可以通过try -except进行捕获异常。
Urllib.error 模块
urllib.error 模块为 urllib.request 所引发的异常定义了异常类,基础异常类是 URLError。
urllib.error 包含了两个方法,URLError 和 HTTPError。
URLError 是 OSError 的一个子类,用于处理程序在遇到问题时会引发此异常(或其派生的异常)。
HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。
异常处理
用try except语句块捕获并处理异常,其基本语法结构如下所示:
try:可能产生异常的代码块
except [ (Error1, Error2, … ) [as e] ]:处理异常的代码块1
except [ (Error3, Error4, … ) [as e] ]:处理异常的代码块2
except [Exception]:处理其它异常
实例:
原url= ‘https://www.jianshu.com/p/3388cf148dba’
源码:
import urllib.request
import urllib.error
url = 'https://www.jianshu.com1/p/3388cf148dba'
# url的组成 eg:https://www.baidu.com/s?wd=易烊千玺
# 1.协议(http/https) 2.主机(www.baidu.com) 3.端口号(80/443) 4.路径(s) 5.参数(wd=易烊千玺) 6.锚点
# 常见的端口号
# http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
try:
request = urllib.request.Request(url = url,headers = headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf8')
print(content)
except urllib.error.HTTPError:
print('HTTP异常,请稍后!')
except urllib.error.URLError:
print('URL异常,请稍后!')
1.URLError
url = ‘https://www.jianshu.com1/p/3388cf148dba’
运行结果:
2.HTTPError
url = ‘https://www.jianshu.com/p/3388cf148dba111’
运行结果:
由于HTTPRError是URLError的子类,所以需先写httperror的异常处理,否则一律认为是URLError的异常。urllib的异常处理就写到这啦,希望大家都不会出现异常,更多关于python爬虫urllib异常处理的资料请关注脚本之家其它相关文章!
来源:https://blog.csdn.net/weixin_46277553/article/details/123133361
猜你喜欢
- openpyxl特点openpyxl(可读写excel表)专门处理Excel2007及以上版本产生的xlsx文件,xls和xlsx之间转换容
- 今天把博客的日历脚本又改了一改,就帖上了,以后找起来方便一点,同时也给需要的人带来方便,本来还想加点功能再帖上来,不过我看还是没必要了,帖的
- mysql分组统计并求出百分比1、mysql 分组统计并列出百分比SELECT point_id,&nb
- Go 命令Go语言自带有一套完整的命令操作工具,你可以通过在命令行中执行go来查看它们:图1.3 Go命令显示详细的信息这些命令对于我们平时
- 这篇文章主要介绍了Python os模块常用方法和属性总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要
- 1、使用专用网站获取的是公网IP网址:http://myip.ipip.net代码:import requestsres = request
- MySQL数据库配置技巧用root用户启动远程服务一直是安全大忌,因为如果服务程序出现问题,远程攻击者极有可能获得主机的完全控制权。MySQ
- pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。这篇文章重点给大家介绍
- 前言最近在网上搜了许多关于pandas.DataFrame的操作说明,都是一些基础的操作,但是这些操作组合起来还是比较费时间去正确操作Dat
- 对于什么是好设计,一万个人那里至少有一万零一个答案。每个人都有自己的答案,有的人还不止一个答案。老师说,一定要在设计里灌注自己的思想,有了自
- 我试了网上提供的一些方法都不行,最后还是自己用SQL解决了些问题。 1 在查询分析器里面选中出问题的数据库,然后输入: Exec sp_co
- 前言接口在软件工程扮演重要角色,随着应用程序的功能不断扩展,代码库的更新和改变也难以管理。在许多情况下,会发现有一些看起来非常相似,但却不相
- Python list append方法给列表追加元素描述append函数可以在列表的末尾添加新的对象。函数无返回值,但是会修改列表。语法l
- 建立随机生成的HTML代码是一件相当容易实现的ASP特性。你可能创建过“每日一帖”、滚动广告等等,只需要稍加点缀就会令你的网站日久弥新。对存
- 1、解决方案mysql是不支持跨库连接的,如果我们实在要连接的话可以用dblink方式。解释:dblink就是我们在创建表的时候连接到我们的
- print() 函数使用以 % 开头的转换说明符对各种类型的数据进行格式化输出。转换说明符(Conversion Specifier)只是一
- 大致效果安装方式 IDEA插件官网地址:material theme ui GITHUB地址:material theme ui 下载之后选
- 一、数据库是什么?数据库是管理数据的一类软件。对数据的管理体现在两个方面,第一是描述数据,即一条数据如何表示,第二是组织数据,即很多数据如何
- 解决SQL2000最大流水号的两个好方法问:请问怎样才能解决ms serer 2000 最大流水号的问题?答:我可以介绍两种方法给你:方法1
- 方案一func md5V(str string) string { h := md5.New() &n