Python爬虫——爬取豆瓣电影Top250代码实例

作者:Fighting_No1 时间:2022-01-31 02:47:22 

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:


#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
 request = urllib2.Request(url)#发送请求
 try:
   response = urllib2.urlopen(request)#取得响应
   html= response.read()#获取网页内容
   #print html
 except urllib2.URLError, e:
   if hasattr(e,"code"):
     print e.code
   if hasattr(e,"reason"):
     print e.reason
 return html

#获取相关内容
def getData(baseurl):
 findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
 findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
 findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
 #找到评分
 findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
 #找到评价人数
 findJudge=re.compile(r'<span>(\d*)人评价</span>')
 #找到概况
 findInq=re.compile(r'<span class="inq">(.*)</span>')
 #找到影片相关内容:导演,主演,年份,地区,类别
 findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
 #去掉无关内容
 remove=re.compile(r'              |\n|</br>|\.*')
 datalist=[]
 for i in range(0,10):
   url=baseurl+str(i*25)
   html=askURL(url)
   soup = BeautifulSoup(html, "html.parser")
   for item in soup.find_all('div',class_='item'):#找到每一个影片项
     data=[]
     item=str(item)#转换成字符串
     #print item
     link=re.findall(findLink,item)[0]
     data.append(link)#添加详情链接
     imgSrc=re.findall(findImgSrc,item)[0]
     data.append(imgSrc)#添加图片链接
     titles=re.findall(findTitle,item)
     #片名可能只有一个中文名,没有外国名
     if(len(titles)==2):
       ctitle=titles[0]
       data.append(ctitle)#添加中文片名
       otitle=titles[1].replace(" / ","")#去掉无关符号
       data.append(otitle)#添加外国片名
     else:
       data.append(titles[0])#添加中文片名
       data.append(' ')#留空
     rating=re.findall(findRating,item)[0]
     data.append(rating)#添加评分
     judgeNum=re.findall(findJudge,item)[0]
     data.append(judgeNum)#添加评论人数
     inq=re.findall(findInq,item)
     #可能没有概况
     if len(inq)!=0:
       inq=inq[0].replace("。","")#去掉句号
       data.append(inq)#添加概况
     else:
       data.append(' ')#留空
     bd=re.findall(findBd,item)[0]
     bd=re.sub(remove,"",bd)
     bd=re.sub('<br>'," ",bd)#去掉<br>
     bd=re.sub('/'," ",bd)#替换/
     #data.append(bd)
     words=bd.split(" ")
     for s in words:
       if len(s)!=0 and s!=' ':#去掉空白内容
          data.append(s)
     #主演有可能因为导演内容太长而没有
     if(len(data)!=12):
       data.insert(8,' ')#留空
     datalist.append(data)
 return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
 book=xlwt.Workbook(encoding='utf-8',style_compression=0)
 sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
 col=('电影详情链接','图片链接','影片中文名','影片外国名',
       '评分','评价数','概况','导演','主演','年份','地区','类别')
 for i in range(0,12):
   sheet.write(0,i,col[i])#列名
 for i in range(0,250):
   data=datalist[i]
   for j in range(0,12):
     sheet.write(i+1,j,data[j])#数据
 book.save(savepath)#保存

def main():
 baseurl='https://movie.douban.com/top250?start='
 datalist=getData(baseurl)
 savapath=u'豆瓣电影Top250.xlsx'
 saveData(datalist,savapath)

main()

Excel表部分内容如下:

Python爬虫——爬取豆瓣电影Top250代码实例

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合网站的支持!

来源:https://blog.csdn.net/Fighting_No1/article/details/50926008

标签:python,爬取,豆瓣电影
0
投稿

猜你喜欢

  • 基于Python组装jmx并调用JMeter实现压力测试

    2023-05-03 04:42:20
  • 解决python明明pip安装成功却找不到包的问题

    2021-05-21 14:50:40
  • 网站细节论(1)--阅读的细节

    2007-12-21 12:16:00
  • python+matplotlib演示电偶极子实例代码

    2021-07-09 12:52:35
  • 手机使用python操作图片文件(pydroid3)过程详解

    2021-06-19 13:45:39
  • Python使用爬虫爬取贵阳房价的方法详解

    2022-12-01 09:55:25
  • Python实现自动清理电脑垃圾文件详解

    2023-05-18 00:50:22
  • 使用PDB模式调试Python程序介绍

    2021-12-12 02:29:42
  • 基于python中的TCP及UDP(详解)

    2023-12-22 19:54:38
  • python实现生命游戏的示例代码(Game of Life)

    2023-11-02 21:33:35
  • js字放大效果

    2010-09-07 12:18:00
  • 给应用部分的js代码设定一个统一的入口

    2024-05-05 09:15:59
  • MySQL 表数据的导入导出操作示例

    2024-01-18 17:20:19
  • 如何利用C#通过sql语句操作Sqlserver数据库教程

    2024-01-12 19:24:00
  • 基于 Python 实践感知器分类算法

    2022-08-08 05:49:31
  • Python实现微信表情包炸群功能

    2022-08-17 07:28:14
  • Mysql中正则表达式Regexp常见用法及说明

    2024-01-14 21:51:35
  • Python记录详细调用堆栈日志的方法

    2023-11-16 17:20:57
  • WebStorm 遇到的问题总结

    2023-08-31 23:30:00
  • bootstrap table单元格新增行并编辑

    2024-04-10 16:09:09
  • asp之家 网络编程 m.aspxhome.com