基于python 爬虫爬到含空格的url的处理方法

作者:孔天逸 时间:2023-04-16 09:55:47 

道友问我的一个问题,之前确实没遇见过,在此记录一下。

问题描述

在某网站主页提取url进行迭代,爬虫请求主页时没有问题,返回正常,但是在访问在主页提取到的url时出现了400状态码(400 Bad Request)。

结论

先贴出结论来,如果url里有空格的话,要把空格替换成%20,也就是url编码,否则就会出现400。

解决过程

首先百度了一下400状态码什么意思:

400页面是当用户在打开网页时,返回给用户界面带有400提示符的页面。其含义是你访问的页面域名不存在或者请求错误。

主要有两种形式:

1、bad request意思是“错误的请求”;

2、invalid hostname意思是”不存在的域名”。

所以说问题应该是出在了url上,我怀疑是他的url提取逻辑有问题,于是让他把url打印一下看看,他说看不出什么问题。

然后我就把他代码要了过来,自己调调试试,发现前几个子url是访问正常的,但是其中一个出现了400,那个url如下:


http://www.qichacha.com/company_getinfos?unique=4d5ad1bc15ddc4ad9873e5b0ff4f93d3&companyname=意大利C.D.VIDEO S.P.A.深圳代表处&tab=base

下面是一个访问正常的url:


http://www.qichacha.com/company_getinfos?unique=f6aa78d2e9f4b0bc98103785f96c1353&companyname=深圳市联得自动化装备股份有限公司&tab=base

我首先把这个url复制到浏览器,发现可以正常访问,然后就留神了一下浏览器上url的变化,发现空格变成了%20,在代码里把url中的空格都替换成%20后,

程序访问也正常了。

问题解决。

启示

以后做爬虫,对于不可预测的不规律的请求,在发请求之前先把url进行url编码,以免出现这种错误。

这篇基于python 爬虫爬到含空格的url的处理方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

来源:https://blog.csdn.net/qq_30242609/article/details/62896170

标签:python,爬虫,url,空格
0
投稿

猜你喜欢

  • js replace()去除代码中空格的实例

    2024-04-29 13:36:26
  • 使用Python处理KNN分类算法的实现代码

    2023-11-03 07:03:07
  • IE8 CSS之生成内容

    2008-09-09 22:14:00
  • python flask几分钟实现web服务的例子

    2023-05-21 13:04:58
  • Python绑定方法与非绑定方法详解

    2021-04-12 00:20:19
  • JavaScript定义函数的三种实现方法

    2024-04-16 09:06:15
  • 新浪微博文字渐隐效果

    2011-04-29 12:33:00
  • SQL Server简单查询示例汇总

    2024-01-27 12:19:41
  • Go高级特性探究之对象比较详解

    2024-04-26 17:26:59
  • 解决Keras TensorFlow 混编中 trainable=False设置无效问题

    2022-10-23 16:56:19
  • Python常见报错解决方案总结(新手拯救指南)

    2021-12-19 02:43:23
  • openCV入门学习基础教程第三篇

    2022-05-20 00:00:59
  • 随机显示图片

    2009-07-26 10:13:00
  • 跟老齐学Python之啰嗦的除法

    2022-12-18 12:47:38
  • Python 通过微信控制实现app定位发送到个人服务器再转发微信服务器接收位置信息

    2023-02-15 16:49:10
  • 如何只取数据库的前3条记录?

    2010-06-28 18:28:00
  • 浅谈Python 敏感词过滤的实现

    2022-12-11 07:47:17
  • Python全栈之正则表达式

    2022-09-12 16:17:09
  • 数据库查询的分页优化技巧

    2009-05-17 10:31:00
  • 社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)

    2022-05-26 04:58:36
  • asp之家 网络编程 m.aspxhome.com