python3中编码获取网页的实例方法

作者:PYCN 时间:2023-07-17 23:31:47 

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。

1. encoding和apparent_encoding


import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比


import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 python3中编码获取网页的实例方法

来源:https://www.py.cn/jishu/jichu/20849.html

标签:python3,编码,获取网页
0
投稿

猜你喜欢

  • IE7的web标准之道 Ⅱ

    2008-08-13 12:50:00
  • wxpython自定义下拉列表框过程图解

    2023-11-14 04:01:18
  • 在laravel中使用Symfony的Crawler组件分析HTML

    2023-11-17 18:54:07
  • ASP解析JSON

    2009-12-25 16:34:00
  • Python标准库sched模块使用指南

    2022-09-20 12:19:06
  • 如何在ASP中使用SQL存储过程

    2008-02-26 12:09:00
  • 新手教程:如何设置五大类MySQL参数

    2010-03-03 16:40:00
  • Python定义函数实现累计求和操作

    2021-07-07 00:54:19
  • 教你如何升级SQL Server数据库系统

    2009-01-19 14:42:00
  • SQL Server中使用DTS设计器进行数据转移

    2009-01-08 16:15:00
  • 未能找到存储过程’master.dbo.xp_fileexist’解决方法

    2011-03-13 09:29:00
  • 用Python自动下载网站所有文件

    2021-02-09 18:57:35
  • 解析:Perl下应当如何连接Access数据库

    2008-11-28 16:40:00
  • 最新的关键SQL Server漏洞已被微软证实

    2009-03-16 14:31:00
  • python pdb调试方法分享

    2022-02-15 22:39:22
  • Python时间和字符串转换操作实例分析

    2023-04-15 22:58:08
  • 50个常用sql语句 网上流行的学生选课表的例子

    2012-07-11 16:02:01
  • PHP实现数组根据某个字段进行水平合并,横向合并案例分析

    2023-10-04 04:55:53
  • php用header函数实现301跳转代码实例

    2023-10-08 11:29:59
  • Array.prototype.slice

    2010-05-07 12:43:00
  • asp之家 网络编程 m.aspxhome.com