Python3爬虫学习之MySQL数据库存储爬取的信息详解

作者:Veniendeavor 时间:2024-01-19 23:06:19 

本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息。分享给大家供大家参考,具体如下:

数据库存储爬取的信息(MySQL)

爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在txt文件中后期处理起来会比较麻烦,很不方便,如果数据量比较大的情况下,查找更加麻烦,所以我们通常会把爬取的数据存储到数据库中便于后期分析利用。

这里,数据库选择MySQL,采用pymysql 这个第三方库来处理python和mysql数据库的存取,python连接mysql数据库的配置信息


db_config ={
 'host': '127.0.0.1',
 'port': 3306,
 'user': 'root',
 'password': '',
 'db': 'pytest',
 'charset': 'utf8'
}

以爬取简书首页文章标题以及url为例,先分析抓取目标信息,

Python3爬虫学习之MySQL数据库存储爬取的信息详解

如上图,文章题目在a标签中,且url(href)只含有后半部分,所以在存储的时候,最好把它补全。

mysql:新建一个数据库pytest,建立一张名为titles的表,表中字段分别为id(int自增),title(varchar),url(varchar),如下:

Python3爬虫学习之MySQL数据库存储爬取的信息详解

进行数据库操作的思路为:获得数据库连接(connection)->获得游标(cursor)->执行sql语句(execute)->事物提交(commit)->关闭数据据库连接(close),具体代码实现如下:


# -*- coding:utf-8 -*-
from urllib import request
from bs4 import BeautifulSoup
import pymysql
# mysql连接信息(字典形式)
db_config ={
 'host': '127.0.0.1',
 'port': 3306,
 'user': 'root',
 'password': '',
 'db': 'pytest',
 'charset': 'utf8'
}
# 获得数据库连接
connection = pymysql.connect(**db_config)
# 数据库配置,获得连接(参数方式)
# connection = pymysql.connect(host='127.0.0.1',
#            port=3306,
#            user='root',
#            password='',
#            db='pytest',
#            charset='utf8')
url = r'http://www.jianshu.com/'
# 模拟浏览器头
headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
soup = BeautifulSoup(page_info, 'html.parser')
urls = soup.find_all('a', 'title')
try:
 # 获得数据库游标
 with connection.cursor() as cursor:
   sql = 'insert into titles(title, url) values(%s, %s)'
   for u in urls:
     # 执行sql语句
     cursor.execute(sql, (u.string, r'http://www.jianshu.com'+u.attrs['href']))
 # 事务提交
 connection.commit()
finally:
 # 关闭数据库连接
 connection.close()

代码执行结果:

Python3爬虫学习之MySQL数据库存储爬取的信息详解

希望本文所述对大家Python程序设计有所帮助。

来源:https://www.jianshu.com/p/96abb2bbdb1b

标签:Python3,爬虫,MySQL数据库
0
投稿

猜你喜欢

  • Django 如何从request中获取前端数据

    2023-06-22 06:52:16
  • perl读写文件代码实例

    2023-01-11 22:04:39
  • Selenium浏览器自动化如何上传文件

    2023-07-12 17:41:01
  • MySQL 数据库语句优化的原则

    2010-01-20 10:11:00
  • Python命令启动Web服务器实例详解

    2022-10-09 11:53:42
  • python3.6使用pymysql连接Mysql数据库

    2024-01-27 13:00:48
  • python二分法查找算法实现方法【递归与非递归】

    2023-04-17 08:13:47
  • MySQL数据库导入导出数据之报错解答实例讲解

    2024-01-24 14:56:49
  • python函数不定长参数使用方法解析

    2022-07-05 23:47:20
  • Python对数据进行插值和下采样的方法

    2022-06-02 03:36:41
  • javascript验证上传文件的类型限制必须为某些格式

    2024-04-18 09:36:34
  • 微信小程序报错: thirdScriptError的错误问题

    2024-04-19 09:47:43
  • ASP访问数量统计代码

    2011-04-08 10:59:00
  • git fetch与git pull的区别详解

    2023-10-16 07:58:14
  • 网页语言编码及asp乱码问题解决方案

    2008-01-31 13:21:00
  • python入门游戏之井字棋实例代码

    2021-07-13 20:26:48
  • 对tensorflow中tf.nn.conv1d和layers.conv1d的区别详解

    2022-07-17 02:28:27
  • Vue使用JSEncrypt实现rsa加密及挂载方法

    2024-06-05 10:02:30
  • 使用python-pptx包批量修改ppt格式的实现

    2021-04-03 21:31:16
  • Python+OpenCV内置方法实现行人检测

    2023-10-19 12:52:47
  • asp之家 网络编程 m.aspxhome.com