Python爬虫爬取商品失败处理方法

作者：py 时间：2021-04-11 11:26:31　

1.登陆网站，开启开发者模式。

可以在浏览器中点击右键检查或者F12打开开发者模式。

2.点选 NetWork，DOC，然后刷新页面。

在 network 中选择 doc，在请求的 headers 中搜索 cookie。

3.获取对应的 cookie 以及 user-agent。

4.在代码中添加到 headers 里面。

def getHTMLText(url):
kv = {
'cookie': 'adsgadfafegadsgadsfaefasdfaewfadsfag'
'uaer-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
try:
r = requests.get(url, headers=kv, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "gg"

实例扩展：

程序的结构设计

提交商品搜索请求，循环获取页面
对于每个页面，提取商品名称和价格信息
将信息输出

遇到问题

爬取成功，数据有问题

打印 html 文件，返回如下

<script type="text/javascript">
TRLang = {
ERROR_NICK_BLANK: "请填写账户名",
ERROR_PASSWORD_BLANK: "请输入密码",
ERROR_NICK_PASSWORD_BLANK: "请输入账户名和密码",
ERROR_CHECKCODE_BLANK: "请输入验证码",
TIPS_REMEMBER_PASSWORD: "记住密码",
TIPS_NOT_REMEMBER_PSW_ON_PUBLIC: "不要在公共计算机记住密码，防止账户被盗"
};
</script>

来源：https://www.py.cn/jishu/spider/32181.html

标签：Python爬虫,爬取失败

投稿

Python爬虫爬取商品失败处理方法

猜你喜欢

python fabric实现远程操作和部署示例

简单的PHP缓存设计实现代码

详解python基础中的for循环

浅谈django三种缓存模式的使用及注意点

PHP 修改SESSION的生存时间案例详解

Web标准在中国

Go语言Grpc Stream的实现

基于Python实现文件的压缩与解压缩

pandas的Series类型与基本操作详解

python神经网络Keras构建CNN网络训练

oracle中110个常用函数介绍

Python开发.exe小工具的详细步骤

如何设计注册激活邮件

python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例

自己写的一个PJBlog中可以双击输入验证码的修改

Python实现微信机器人的方法

Python实现绘制多角星实例

Python企业编码生成系统总体系统设计概述

python取数作为临时极大值(极小值)的方法

asp 防盗链代码(彻底屏蔽迅雷，旋风，快车下载站内资源)