Python实现的爬取豆瓣电影信息功能案例

作者:爆炒小青蛙 时间:2023-07-18 21:59:25 

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考,具体如下:

本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库

step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..


def getpage(url):
 try:
   res=requests.get(url)
   if res.status_code==200:
     return res.text
   return None
 except RequestException:
   return None

step2:做每一页的网址解析,打开原网址https://movie.douban.com/top250?,查看网页源代码,可以看到每一个电影的源代码都是从<li>开始,在</li>处结束,写好正则表达式以后爬到的列表的每一条item都有五个元素,因此将其写成字典的形式,这里用到yield函数(关于yield函数的用法,廖老师的有一篇文章比较好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

Python实现的爬取豆瓣电影信息功能案例

对单个网页的进行解析的代码如下:


def parsepage(html):
 pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
         +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
 items=re.findall(pat,html)
 for item in items:
   yield{
     'index':item[0],
     'title':item[1],
     'stars':item[2].strip(),
     'score':item[3],
     'concept':item[4]
   }

下面的代码是将每一个item写入文件,这里encoding='utf-8' 和ensure_ascii=False都是使写入文件时中文能保持不变,json.dumps可以将(字典)对象转化成字符串(但前面要先import json),with open的第二个参数为a,表示每次写入时,是往后追加(续接),而不是后一次写入将之前内容覆盖,\n是指要每一次写入一个item之后要换行。


def write_tofile(content):
 with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
   f.write(json.dumps(content,ensure_ascii=False)+'\n')
   f.close()

最后,需要用循环语句将每一页(共10页)内容都进行以上操作。这里,第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50,也就是每一页的start=为25*i。最后一段代码如下:


def main():
 url="https://movie.douban.com/top250?"
 for i in range(0,9):
   url_i=url+'start='+str(25*i)
   html_i=getpage(url_i)
   for item in parsepage(html_i):
     print(item)
     write_tofile(item)
if __name__ == '__main__':
 main()

当然,这一段代码还有一种写法:


def main(start):
 url="https://movie.douban.com/top250?start="+str(start)
 html=getpage(url)
 for item in parsepage(html):
   print(item)
   write_tofile(item)
if __name__ == '__main__':
 for i in range(10):
   main(i*10)

如果想让你的程序跑的更快,可以用多线程爬虫(当然这里其实没有必要):


#在最开始加载Pool包
from multiprocessing import Pool
#最后的执行段改为:
if __name__ == '__main__':
 for i in range(10):
   main(i*10)
 pool=Pool() #在循环外写
 pool.map(main,[i*10 for i in range (10)])

希望本文所述对大家Python程序设计有所帮助。

来源:https://blog.csdn.net/ISMedal/article/details/79218542

标签:Python,爬取,豆瓣电影信息
0
投稿

猜你喜欢

  • PHP日期函数date格式化UNIX时间的方法

    2024-06-05 09:47:14
  • PyTorch实现MNIST数据集手写数字识别详情

    2021-08-03 17:30:36
  • yolov5返回坐标的方法实例

    2023-10-05 20:09:43
  • python Tkinter是什么

    2022-07-26 08:31:51
  • Python 读取某个目录下所有的文件实例

    2022-08-27 20:04:13
  • electron实现静默打印的示例代码

    2024-05-09 15:25:14
  • Python绘图之turtle库的基础语法使用

    2023-04-09 18:39:16
  • python实现公司年会抽奖程序

    2022-12-19 15:35:27
  • JavaScript实现相册弹窗功能(zepto.js)

    2024-04-19 10:42:49
  • VSCode插件安装完成后的配置详解

    2022-02-16 00:36:34
  • 使用Anaconda创建Pytorch虚拟环境的排坑详细教程

    2021-06-14 09:01:03
  • angularJS实现表格部分列展开缩起示例代码

    2024-04-16 10:40:42
  • Oracle中sql语句如何执行日志查询

    2024-01-23 21:43:26
  • python爬虫框架scrapy下载中间件的编写方法

    2021-10-16 13:37:19
  • python3实现飞机大战

    2023-03-03 00:36:18
  • MySQL 8.0 新特性之检查约束的实现

    2024-01-23 15:25:08
  • 详解nodejs express下使用redis管理session

    2024-05-11 09:51:40
  • python飞机大战pygame碰撞检测实现方法分析

    2023-01-05 18:55:52
  • python用moviepy对视频进行简单的处理

    2023-08-03 07:02:15
  • js选取多个或单个元素的实现代码(用class)

    2023-08-24 16:51:29
  • asp之家 网络编程 m.aspxhome.com