python 下载文件的几种方式分享

作者:虎卫兵 时间:2021-03-27 14:08:17 

目录
  • 1 、一般同步下载

  • 2、 使用流式请求,requests.get方法的stream

  • 3 、异步下载文件

  • 4、 异步拆分下载文件

  • 5、注意

1 、一般同步下载

示例代码:


import requests
import os

def downlaod(url, file_path):
 headers = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
 }
 r = requests.get(url=url, headers=headers)
 with open(file_path, "wb") as f:
   f.write(r.content)
   f.flush()

2、 使用流式请求,requests.get方法的stream

默认情况下是stream的值为false,它会立即开始下载文件并存放到内存当中,倘若文件过大就会导致内存不足的情况,程序就会报错。
当把get函数的stream参数设置成True时,它不会立即开始下载,当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载,需要注意一点:文件没有下载之前,它也需要保持连接。


iter_content:一块一块的遍历要下载的内容
iter_lines:一行一行的遍历要下载的内容

使用上面两个函数下载大文件可以防止占用过多的内存,因为每次只下载小部分数据。

示例代码:

3 、异步下载文件

由于request的请求是阻塞式的,所以要用aiohttp模块来发起请求。

示例代码:


import aiohttp
import asyncio
import os

async def handler(url, file_path):
 headers = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
 }
 async with aiohttp.ClientSession() as session:
   r = await session.get(url=url, headers=headers)
   with open(file_path, "wb") as f:
     f.write(await r.read())
     f.flush()
     os.fsync(f.fileno())

loop = asyncio.get_event_loop()
loop.run_until_complete(handler(url, file_path))

4、 异步拆分下载文件

上面用的是一个协程下载一个文件,下面的方法是将文件分成几部分,每个部分用一个协程下载,最后再写入文件。

下面这个例子用的是流式写入,即把内容写入到磁盘里面。


import aiohttp
import asyncio
import time
import os

async def consumer(queue):
 option = await queue.get()
 start = option["start"]
 end = option["end"]
 url = option["url"]
 filename = option["filename"]
 i = option["i"]

print(f"第{i}个任务开始运行")
 async with aiohttp.ClientSession() as session:
   headers = {"Range": f"bytes={start}-{end}"}
   r = await session.get(url=url, headers=headers)
   with open(filename, "rb+") as f:
     f.seek(start)
     while True:
       chunk = await r.content.read(end - start)
       if not chunk:
         break
       f.write(chunk)
       f.flush()
       os.fsync(f.fileno())
       print(f"第{i}个任务正在写入中ing")
   queue.task_done()
   print(f"第{i}个任务写入成功")

async def producer(url, headers, filename, queue, coro_num):
 async with aiohttp.ClientSession() as session:
   resp = await session.head(url=url, headers=headers)
   file_size = int(resp.headers["content-length"])
   # 创建一个文件
   with open(filename, "wb") as f:
     pass
   part = file_size // coro_num
   for i in range(coro_num):
     start = part * i
     if i == coro_num - 1:
       end = file_size
     else:
       end = start + part
     info = {
       "start": start,
       "end": end,
       "url": url,
       "filename": filename,
       "i": i,
     }
     queue.put_nowait(info)

async def main():
 # 需要填的有url,filename,coro_num
 url = ""
 filename = ""
 coro_num = 0
 headers = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
 }
 queue = asyncio.Queue(coro_num)
 await producer(url, headers, filename, queue, coro_num)
 task_list = []
 for i in range(coro_num):
   task = asyncio.create_task(consumer(queue))
   task_list.append(task)
 await queue.join()
 for i in task_list:
   i.cancel()
 await asyncio.gather(*task_list)

startt = time.time()
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
end = time.time() - startt
print(f"用了{end}秒")

5、注意

以上的示例都是介绍思路,程序并不健壮,健壮的程序需要加入错误捕获和错误处理。

来源:https://www.cnblogs.com/NEGAN-H/p/14617598.html

标签:python,下载,文件
0
投稿

猜你喜欢

  • 基于golang的简单分布式延时队列服务的实现

    2024-05-08 10:44:03
  • Python使用Nocalhost并开启debug调试的方法

    2023-05-04 11:22:46
  • anaconda navigator打不开问题的解决方法

    2023-09-12 08:48:20
  • Python全局变量global关键字详解

    2023-01-29 22:32:50
  • Python实现图片添加文字

    2021-11-22 21:17:11
  • Linux下mysql的root密码修改方法

    2024-01-13 17:39:44
  • 从django的中间件直接返回请求的方法

    2022-02-04 23:32:23
  • Python控制台输出俄罗斯方块的方法实例

    2023-08-09 16:32:19
  • js表单序列化判断空值的实例

    2024-04-22 13:01:15
  • js中函数声明与函数表达式

    2024-04-25 13:08:35
  • C#实现Excel表数据导入Sql Server数据库中的方法

    2024-01-19 01:19:01
  • PyQt5每天必学之事件与信号

    2021-06-28 11:00:52
  • Python与C语言分别完成排序流程

    2023-04-19 08:26:24
  • Python模块结构与布局操作方法实例分析

    2021-11-26 10:49:31
  • 随Linux开机自动启动mysql

    2009-12-29 10:14:00
  • MySql字符串拆分实现split功能(字段分割转列)

    2024-01-15 03:12:03
  • text-overflow实现标题省略号功能

    2009-05-19 12:13:00
  • Python3的介绍、安装和命令行的认识(推荐)

    2022-10-09 22:45:36
  • 使用Python自动生成HTML的方法示例

    2022-08-12 12:12:18
  • Python使用bar绘制堆积/带误差棒柱形图的实现

    2021-06-26 12:42:05
  • asp之家 网络编程 m.aspxhome.com