Python 爬虫学习笔记之单线程爬虫

作者:千里追风 时间:2021-09-23 10:47:27 

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图

Python 爬虫学习笔记之单线程爬虫

怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样

Python 爬虫学习笔记之单线程爬虫

这个时候进行翻页,观看网址的变化,首先,第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了 http://www.maiziedu.com/course/list/all-all/0-3/ ,可以看到,每次翻一页,0后面的数字就会递增1,然后就有人会想到了,拿第一页呢?我们尝试着将 http://www.maiziedu.com/course/list/all-all/0-1/ 放进浏览器的地址栏,发现可以打开第一栏,那就好办了,我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后,下面要做的就是获取网页的源代码,首先右击查看审查或者是检查元素,就可以看到以下界面

Python 爬虫学习笔记之单线程爬虫

找到课程所在的位置以后,就可以很轻松的利用正则表达式将我们需要的内容提取出来,至于怎么提取,那就要靠你自己了,尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取,那么继续往下,看我的源代码吧

实战源代码


# coding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding("utf8")

class spider():
  def __init__(self):
    print "开始爬取内容。。。"

def changePage(self, url, total_page):
    nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
    pagegroup = []

for i in range(nowpage, total_page + 1):
      link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
      pagegroup.append(link)

return pagegroup

def getsource(self, url):
 html = requests.get(url)
 return html.text

def getclasses(self, source):
 classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1)
 return classes

def geteach(self, classes):
 eachclasses = re.findall('<li>(.*?)</li>', classes, re.S)
 return eachclasses

def getinfo(self, eachclass):
 info = {}
 info['title'] = re.search('<a title="(.*?)"', eachclass, re.S).group(1)
 info['people'] = re.search('<p class="color99">(.*?)</p>', eachclass, re.S).group(1)
 return info

def saveinfo(self, classinfo):
 f = open('info.txt', 'a')

for each in classinfo:
   f.writelines('title : ' + each['title'] + '\n')
   f.writelines('people : ' + each['people'] + '\n\n')

f.close()

if __name__ == '__main__':

classinfo = []
  url = 'http://www.maiziedu.com/course/list/all-all/0-1/'
  maizispider = spider()
  all_links = maizispider.changePage(url, 30)
  for each in all_links:
    htmlsources = maizispider.getsource(each)
    classes = maizispider.getclasses(htmlsources)
    eachclasses = maizispider.geteach(classes)

for each in eachclasses:
      info = maizispider.getinfo(each)
      classinfo.append(info)

maizispider.saveinfo(classinfo)

以上代码并不难懂,基本就是正则表达式的使用,然后直接运行就可以看到开头我们的截图内容了,由于这是单线程爬虫,所以运行速度感觉有点慢,接下来还会继续更新多线程爬虫。

应小伙伴们的要求,下面附上requests爬虫库的安装和简单示例

首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。

安装pip到python2:

python get-pip.py

安装到python3:

python3 get-pip.py

pip安装完成以后,安装requests库开启python爬虫学习。

安装requests

pip3 install requests

我使用的python3,python2可以直接用pip install requests.

入门例子


import requests

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html.encoding='utf-8'
print(html.text)

第一行引入requests库,第二行使用requests的get方法获取网页源代码,第三行设置编码格式,第四行文本输出。
把获取到的网页源代码保存到文本文件中:


import requests
import os

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html_file=open("news.txt","w")
html.encoding='utf-8'
print(html.text,file=html_file)
标签:Python,单线程爬虫
0
投稿

猜你喜欢

  • python Django的显示个人信息详解

    2021-10-09 15:47:14
  • JavaScript ES6的新特性使用新方法定义Class

    2024-04-10 11:00:30
  • python3中str(字符串)的使用教程

    2021-07-19 00:28:47
  • 得到自增列的下一个会插入的id

    2024-01-20 17:32:48
  • python jieba分词并统计词频后输出结果到Excel和txt文档方法

    2023-10-28 21:16:37
  • Vue父组件和子组件之间数据传递和方法调用

    2023-07-02 17:01:57
  • Python定时执行之Timer用法示例

    2021-09-14 21:46:01
  • python实现简单飞行棋

    2021-07-24 23:02:14
  • 关于mysql中的json解析函数JSON_EXTRACT

    2024-01-23 18:29:41
  • 解析Mybatis对sql表的一对多查询问题

    2024-01-14 11:33:19
  • 用 Python 连接 MySQL 的几种方式详解

    2023-07-25 08:08:50
  • Microsoft Access项目不能压缩的原因

    2008-11-28 14:48:00
  • Python 面向对象之类class和对象基本用法示例

    2023-01-02 20:15:01
  • javascript实现计算器功能详解流程

    2024-04-23 09:27:00
  • python采集博客中上传的QQ截图文件

    2021-03-03 16:45:25
  • Datawhale练习之二手车价格预测

    2022-02-04 21:35:56
  • 浅谈Python中range与Numpy中arange的比较

    2021-05-21 00:15:48
  • python脚本框架webpy的url映射详解

    2021-10-27 18:55:05
  • PHP的HTTP客户端Guzzle简单使用方法分析

    2023-07-16 05:58:56
  • 50个常用sql语句 网上流行的学生选课表的例子

    2012-07-11 16:02:01
  • asp之家 网络编程 m.aspxhome.com