python爬虫快速响应服务器的做法

作者:小妮浅浅 时间:2022-09-24 21:05:31 

不论是打开网页或者爬取一些资料的时候,我们想要的是计算机能在最短的时间内运行出结果,不然等待的时间过长会影响下一步工作的计划。这时候我们可以给计算机一个指令,限制最久能等待的时间,在我们能接受的时间内运行出结果。那么这个指令方法是什么呢?接下来我们一起看看吧。

requests之所以称为“HTTP for human”,因为其封装层次很高,其中一处体现就在:requests会自动处理服务器响应的重定向。我在做搜狗微信公众号抓取的时候,搜狗搜索列表页面的公众号文章地址,其实不是微信的地址而需要请求到搜狗到服务器做重定向,而requests的默认处理则是将整个过程全部搞定,对此可以这样:


In [1]: r = requests.get('http://xlzd.me', allow_redirects=False)

allow_redirects参数为False则表示不会主动重定向。

另外,有时候对方网站的响应时间太长了,我们希望在指定时间内完事,或者直接停止这个请求,这时候的做法是:


In [1]: r = requests.get('http://xlzd.me', timeout=3)

timeout表示这次请求最长我最长只等待多少秒

拓展:

为requests套上一层代理的做法也非常简单:


import requests
proxies = {
"http": "http://192.168.31.1:3128",
"https": "http://10.10.1.10:1080",
}
requests.get("http://xlzd.me", proxies=proxies)

来源:https://www.py.cn/jishu/jichu/21180.html

标签:python,爬虫,快速响应
0
投稿

猜你喜欢

  • Python接单的过程记录分享

    2022-05-24 13:33:23
  • python绘制横竖条形图的方法

    2021-12-03 14:15:17
  • 详解将Django部署到Centos7全攻略

    2022-03-23 01:01:12
  • golang 在windows中设置环境变量的操作

    2024-04-28 09:12:29
  • SQL Server 2005中插入XML数据方法

    2008-05-26 11:56:00
  • 用python做个代码版的小仙女蹦迪视频

    2022-10-14 12:48:59
  • Django-celery-beat动态添加周期性任务实现过程解析

    2021-07-29 13:09:49
  • 如何修复使用 Python ORM 工具 SQLAlchemy 时的常见陷阱

    2022-07-03 20:51:47
  • Python图像处理库PIL的ImageFont模块使用介绍

    2023-12-20 10:30:42
  • 在Python程序中进行文件读取和写入操作的教程

    2023-05-22 10:31:56
  • go常用指令之go mod详解

    2024-04-23 09:49:09
  • Python爬虫中urllib3与urllib的区别是什么

    2023-04-04 05:48:12
  • 教你用Python+selenium搭建自动化测试环境

    2021-10-27 02:52:49
  • 教你用Django将前端的数据存入Mysql数据库

    2024-01-19 20:09:48
  • 用js来解决ajax读取页面乱码

    2024-04-18 10:56:04
  • 利用Python脚本批量生成SQL语句

    2023-06-10 10:02:37
  • vue3动态添加路由

    2024-05-13 09:08:34
  • Python实现FLV视频拼接功能

    2021-09-19 02:41:48
  • 基于Python实现人脸识别和焦点人物检测功能

    2021-03-09 10:27:45
  • Windows下Python3.6安装第三方模块的方法

    2022-07-18 19:08:23
  • asp之家 网络编程 m.aspxhome.com