Python3使用requests包抓取并保存网页源码的方法

作者:小谈博客 时间:2022-05-27 06:48:38 

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:


import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:


import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
for line in f:
ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

标签:Python3,requests
0
投稿

猜你喜欢

  • python中如何使用正则表达式的集合字符示例

    2022-05-31 13:00:56
  • Linux+php+apache+oracle环境搭建之CentOS下安装Oracle数据库

    2023-10-08 01:02:56
  • Python实现批量读取word中表格信息的方法

    2023-03-25 19:02:05
  • 面向对象的XHTML与CSS编程

    2008-01-11 13:37:00
  • python与字符编码问题

    2022-09-02 01:08:45
  • pytorch中Tensor.to(device)和model.to(device)的区别及说明

    2021-10-20 05:26:06
  • 如何将服务器端变量转换为客户端的变量?

    2009-12-03 19:54:00
  • 最新的关键SQL Server漏洞已被微软证实

    2009-03-16 14:31:00
  • 用python 制作图片转pdf工具

    2023-02-13 09:14:51
  • 高效的MySQL分页

    2011-01-04 20:01:00
  • python实现稀疏矩阵示例代码

    2023-10-03 02:37:18
  • python正则表达式之re.match()与re.search()的用法及区别

    2022-05-14 13:21:46
  • Python 的描述符 descriptor详解

    2021-03-04 21:14:17
  • GoLang 逃逸分析的机制详解

    2023-08-06 16:46:43
  • 详解pandas的外部数据导入与常用方法

    2023-05-15 19:15:11
  • 教你使用一行Python代码玩遍童年的小游戏

    2021-05-15 10:14:00
  • Python 抖音评论数据抓取分析

    2023-03-22 15:30:20
  • asp #include file 与 #include virtual 的区别小结第1/2页

    2011-04-02 11:17:00
  • javascript给span标签赋值的方法

    2023-09-05 21:28:53
  • Python上传package到Pypi(代码简单)

    2022-04-21 17:09:33
  • asp之家 网络编程 m.aspxhome.com