Python 正则表达式爬虫使用案例解析
作者:那时的小镇 发布时间:2022-08-08 20:30:39
现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。
下面我们一起尝试一下爬取内涵段子网站:
http://www.neihan8.com/article/list_5_1.html
打开之后,不难看出里面一个一个非常有内涵的段子,当你进行翻页的时候,注意url地址的变化:
第一页url: http: //www.neihan8.com/article/list_5_1 .html
第二页url: http: //www.neihan8.com/article/list_5_2 .html
第三页url: http: //www.neihan8.com/article/list_5_3 .html
第四页url: http: //www.neihan8.com/article/list_5_4 .html
这样我们的url规律找到了,要想爬取所有的段子,只需要修改一个参数即可。
我们就开始一步一步将所有的段子爬取下来吧。
第一步:获取数据
1. 按照我们之前的用法,我们需要一个加载页面的方法。
这里我们统一定义一个类,将url请求作为一个成员方法处理。
我们创建了一个文件,叫duanzi_spider.py
然后定义一个Spider类,并且添加一个加载页面的成员方法。
import urllib2
class Spider:
"""
内涵段子爬虫类
"""
def loadPage(self, page):
"""
@brief 定义一个url请求网页的方法
@param page需要请求的第几页
@returns 返回的页面url
"""
url = "http://www.neihan8.com/article/list_5_" + str(page)+ ".html"
#user-Agent头
user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
headers = {"User-Agent":user_agent}
req = urllib2.Request(url, headers = headers)
response = urllib2.urlopen(req)
print html
以上的loadPage的实现思想想必大家都应该熟悉了,需要注意定义python类的成员方法需要额外添加一个参数self.
2.写main函数测试一个loadPage方法
if __name__ == "__main__":
"""
=====================
内涵段子小爬虫
=====================
"""
print("请按下回车开始")
raw_input()
#定义一个Spider对象
mySpider = Spider()
mySpider.loadPage(1)
程序正常执行的话,我们会在皮姆上打印了内涵段子第一页的全部html代码。但是我们发现,html中的中文部分显示的可能是乱码。
那么我们需要简单的将得到的网页源代码处理一下:
def loadPage(self, page):
"""
@bridf 定义一个url请求网页的方法
@param page 需要请求的第几页
@returns 返回的页面html
"""
url = "http://www.neihan8.com/article/list_5_"+str(page)+".html"
#user-agent头
user-agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
headers = {"User-Agent":user-agent}
req = urllib2.Request(url, headers = headers)
response = urllib2.urlopen(req)
html = response.read()
gbk_html = html.decode("gbk").encode("utf-8")
return gbk_html
注意:对于每个网站对中文的编码各自不同,所以html.decode("gbk")的写法并不是通用的,根据网站的编码而异。
第二步:筛选数据
接下来我们已经得到了整个页面的数据。但是,很多内容我们并不关心,所以下一步我们需要筛选数据。如何筛选,就用到了上一节讲述的正则表达式
首先
import re
然后,我们得到的gbk_html中进行筛选匹配。
我们需要一个匹配规则
我们可以打开内涵段子的网页,鼠标点击右键"查看源代码"你会惊奇的发现,我们需要的每个段子的内容都是在一个<div>标签中,而且每个div标签都有一个属性class="f18 mb20"
根据正则表达式,我们可以推算出一个公式是:
<div.*?class="f18 mb20">(.*?)</div>
这个表达式实际上就是匹配到所有div中class="f18 mb20"里面的内容(具体可以看前面介绍)
然后这个正则应用到代码中,我们会得到以下代码:
def loadPage(self, page):
"""
@brief 定义一个url请求网页的办法
@param page 需要请求的第几页
@returns 返回的页面html
"""
url = "http://www.neihan8.com/article/list_5_" +str(page) + ".html"
#User-Agent头
user-agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
headers = {"User-Agent":user-agent}
req = urllib2.Request(url, headers=headers)
response = urllib2.urlopen(req)
html = response.read()
gbk_html = html.decode("gbk").encode("utf-8")
#找到所有的段子内容<div class="f18 mb20"></div>
#re.S 如果没有re.S,则是只匹配一行有没有符合规则的字符串,如果没有则匹配下一行重新匹配
#如果加上re.S,则是将所有的字符串按一个整体进行匹配
pattern = re.compile(r'<div.*?class="f18 mb20">(.*?)</div>', re.S)
item_list = pattern.findall(gbk_html)
return item_list
def printOnePage(self, item_list, page):
"""
@brief 处理得到的段子列表
@param item_list 得到的段子列表
@param page处理第几页
"""
print("*********第%d页,爬取完毕...******"%page)
for item in item_list:
print("===============")
print ite
这里需要注意一个是re.S是正则表达式中匹配的一个参数。
如果没有re.S则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配。
如果加上re.S则是将所有的字符串按一个整体进行匹配,findall将匹配到的所有结果封装到一个list中。
如果我们写了一个遍历item_list的一个方法printOnePage()。ok程序写到这,我们再一次执行一下。
python duanzi_spider.py
我们第一页的全部段子,不包含其他信息全部的打印了出来.
你会发现段子中有很多<p>,</p>很是不舒服,实际上这个是html的一种段落的标签。
在浏览器上看不出来,但是如果按照文本打印会有<p>出现,那么我们只需要把我们的内容去掉即可。
我们可以如下简单修改一下printOnePage()
def printOnePage(self, item_list, page):
"""
@brief 处理得到的段子列表
@param item_list 得到的段子列表
@param page 处理第几页
"""
print("******第%d页,爬取完毕*****"%page)
for item in item_list:
print("============")
item = item.replace("<p>", "").replace("</p>", "").replace("<br />", "")
print item
第三步:保存数据
我们可以将所有的段子存放在文件中。比如,我们可以将得到的每个item不是打印出来,而是放在一个叫duanzi.txt的文件中也可以。
def writeToFile(self, text):
"""
@brief 将数据追加写进文件中
@param text 文件内容
"""
myFile = open("./duanzi.txt", "a") #a追加形式打开文件
myFile.write(text)
myFile.write("-------------------------")
myFile.close()
然后我们将所有的print的语句改写成writeToFile(), 当前页面的所有段子就存在了本地的duanzi.txt文件中。
def printOnePage(self, item_list, page):
"""
@brief 处理得到的段子列表
@param item_list 得到的段子列表
@param page 处理第几页
"""
print("***第%d页,爬取完毕****"%page)
for item in item_list:
item = item.replace("<p>", "").replace("</p>", "").replace("<br />". "")
self.writeToFile(item)
第四步:显示数据
接下来我们就通过参数的传递对page进行叠加来遍历内涵段子吧的全部段子内容。
只需要在外层加上一些逻辑处理即可。
def doWork(self):
"""
让爬虫开始工作
"""
while self.enable:
try:
item_list = self.loadPage(self.page)
except urllib2.URLError, e:
print e.reason
continue
#将得到的段子item_list处理
self.printOnePage(item_list, self.page)
self.page += 1
print "按回车继续...."
print "输入quit退出"
command = raw_input()
if(command == "quit"):
self.enable = False
break
来源:https://www.cnblogs.com/moying-wq/p/11569958.html
猜你喜欢
- 查看安装的python版本号可以使用【python --version】命令。具体方法:首先按【win+r】组合键打开运行;然后输入cmd,
- 导语昨晚玩起了小时候玩的游戏“吃豆豆”,但是我发现,一局游戏三条命,我根本不能吃完所有的豆豆,总是被
- 假设我们有一个容器container如下: <style type=”text/css”> #container{width:a
- itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。使用不到三十行的代码,你就可以完成一个能够处理所有信息的微信机
- 前段时间被IE和JavaScript脚本引擎的Memory Leak问题弄得郁闷坏了,不过幸好现在总算是柳暗花明了,并且找到了一些IE中使用
- 在数据库中,对性能影响最大的包括数据库的锁策略、缓存策略、索引策略、存储策略、执行计划优化策略。索引策略决定数据库快速定位数据的效率,存储策
- 在前后端分离是大趋势的背景下,前端获取数据都是通过调用后台的接口来获取数据微服务的应用越来越多。Django是Python进行web应用开发
- 从BbsXp提出来的生肖函数Zodiac(birthday)。使用方法:birthday为把要判断的出生时间,如2008-3-24 20:0
- 当你的查询相对简单的时候,每次从头开始创建SQL语句也不费什么工夫,不过,复杂的查询就不同了,每次都从头来会产生很多开发错误。因此,一旦让S
- 最近做个软件,用PyQT写的,在实现菜单栏点击弹出新窗口的时候严重被卡壳,发现用WxPython的思想和方式来做完全无法实现。PyQT的中文
- Asp开发 联通CDMA以下是在开发wap中的随笔,其中一些对于“老鸟”来说,谈不上什么,希望对初学者有所帮助,大家有什么小技巧,欢迎顶上来
- 前言我使用goland开发,下面都是用goland做演示一、生成demo.a新建一个项目,目录如下demo.gopackage demoim
- golang.org不能访问的问题解决golang.org被屏蔽了,直接访问不了,解决办法如下:在 http://ping.eu/
- 下面把代码写出来,希望大家批评指正. 首先domain对象.在这里使用的注解的方式,都是比较新的版本. User.java package
- 如今,随着深度学习的发展,python已经成为了深度学习研究中第一语言。绝大部分的深度学习工具包都有python的版本,很多重要算法都有py
- 本文实例讲述了Python基于pygame实现图片代替鼠标移动效果。分享给大家供大家参考,具体如下:想想现在学校pygame有几个钟了,就写
- python中列表的常见操作列表元组的简单操作前面我们已经学过了关于len()函数、赋值运算符及身份运算符的使用,下面简单回顾一下这些在列表
- 这是一个通过js实现的支付后的页面,点击支付会跳出一个弹窗,提示你是否要确定支付,确定后进入付后界面,该页面有着10秒倒计时,计时结束后便会
- 替换print?print怎么了?print 可能是所有学习Python语言的人第一个接触的东西。它最主要的功能就是往控制台 打印一段信息,
- 这篇文章主要介绍了python解析命令行参数的三种方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要