python爬取豆瓣电影TOP250数据
作者:秋无之地 发布时间:2021-12-27 12:50:17
标签:python,豆瓣,爬虫
在执行程序前,先在MySQL中创建一个数据库"pachong"。
import pymysql
import requests
import re
#获取资源并下载
def resp(listURL):
#连接数据库
conn = pymysql.connect(
host = '127.0.0.1',
port = 3306,
user = 'root',
password = '******', #数据库密码请根据自身实际密码输入
database = 'pachong',
charset = 'utf8'
)
#创建数据库游标
cursor = conn.cursor()
#创建列表t_movieTOP250(执行sql语句)
cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL ,pictrue_address VARCHAR(100))')
try:
# 爬取数据
for urlPath in listURL:
# 获取网页源代码
response = requests.get(urlPath)
html = response.text
# 正则表达式
namePat = r'alt="(.*?)" src='
imgPat = r'src="(.*?)" class='
# 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))
res2 = re.compile(namePat)
res3 = re.compile(imgPat)
textList2 = res2.findall(html)
textList3 = res3.findall(html)
# 遍历列表中元素,并将数据存入数据库
for i in range(len(textList3)):
cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) VALUES("%s","%s")' % (textList2[i],textList3[i]))
#从游标中获取结果
cursor.fetchall()
#提交结果
conn.commit()
print("结果已提交")
except Exception as e:
#数据回滚
conn.rollback()
print("数据已回滚")
#关闭数据库
conn.close()
#top250所有网页网址
def page(url):
urlList = []
for i in range(10):
num = str(25*i)
pagePat = r'?start=' + num + '&filter='
urL = url+pagePat
urlList.append(urL)
return urlList
if __name__ == '__main__':
url = r"https://movie.douban.com/top250"
listURL = page(url)
resp(listURL)
结果如下图:
来源:https://www.cnblogs.com/qiuwuzhidi/p/14784302.html


猜你喜欢
- 第1章 argparse简介1.1 解析argparse 模块是 Python 内置的一个用于命令项选项与参数解析的模块
- 去过新浪或者搜狐吗?虽然我们都不愿意看广告,但是它们做广告的技术我们却应该学到手,这不,又一种很流行的做法儿,做成那种两边对称的对联式的广告
- 一、建立一个空白的解决方案,名称为“SpringDotNot”二、新建一个类库项目:IBLL在IBL
- 一、基本使用①从属于time这个包②一般使用都是使用time.Time 这个类型表示时间 ,time包中还有一些常量,源码如下// Comm
- 前言matplotlib.pyplot是一些命令行风格函数的集合,使matplotlib以类似于MATLAB的方式工作。每个pyplot函数
- 本文实例讲述了python中argparse模块用法。分享给大家供大家参考。具体分析如下:平常在写命令行工具的时候,经常会带参数,所以用py
- 函数参数的使用又有俩个方面值得注意:1.函数参数是如何定义的 2.在调用函数的过程中参数是如何被解析先看第一个问题,在python中函数参数
- 几个常用的js小函数,在表单验证时也许您用得到:一检查是否是email地址,二检查是否为数字,三检查是否为电话号码,四检查num是否是负数或
- 单分支结构:if 语句Python 中 if 语句的语法格式如下:if <条件>:  
- 使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval,eval()时,框架会自动把BN和DropOut固
- 前言之前有人提了一个需求,我一看此需求用正则表达式最合适不过。考虑到之前每次使用正则表达式,都是临时抱佛脚,于是这次我就一边完成任务一边系统
- 一、问题描述一段 Python 代码在本地的 IDE 上运行正常,部署到服务器运行后,出现了 ModuleNotFoundError: No
- 环境centos7django 1.11nginx白话我们可以使用Template 设置我们的网页,同时,一个完美的网页需要css,js,i
- 概述Alwayson相对于数据库镜像最大的优势就是可读副本,带来可读副本的同时还添加了一个新的功能就是配置只读路由实现读写分离;当然这里的读
- 画星星程序2-7-7主要使用turtle.forward前进操作和turtle.left左转操作在屏幕上画星星。#!/usr/bin/env
- 原始生成对抗网络Generative Adversarial Networks GAN包含生成器Generator和判别器Discrimin
- 一个小问题今天在做一个实验时,需要对一个包含中英文词汇的TXT文件进行读入和整理。Python代码的编码规则为UTF-8。在读入时,文件的每
- 应该只是一个简单的层的定位及鼠标事件吧<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.
- 本文实例讲述了python条件变量之生产者与消费者操作。分享给大家供大家参考,具体如下:互斥锁是最简单的线程同步机制,面对复杂线程同步问题,
- 本文主要介绍了OpenCV 图像对比度,具有一定的参考价值,感兴趣的可以了解一下实现原理图像对比度指的是一幅图像中明暗区域最亮的白和最暗的黑