Python实现抓取页面上链接的简单爬虫分享

作者:junjie 时间:2021-03-28 23:03:13 

除了C/C++以外,我也接触过不少流行的语言,PHP、java、javascript、python,其中python可以说是操作起来最方便,缺点最少的语言了。

前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下。

首先我们需要用到一个开源的模块,requests。这不是python自带的模块,需要从网上下载、解压与安装:


$ curl -OL https://github.com/kennethreitz/requests/zipball/master
$ python setup.py install

windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。 https://github.com/kennethreitz/requests/zipball/master

这个模块的文档我也正在慢慢翻译,翻译完了就给大家传上来(英文版先发在附件里)。就像它的说明里面说的那样,built for human beings,为人类而设计。使用它很方便,自己看文档。最简单的,requests.get()就是发送一个get请求。

代码如下:


# coding:utf-8
import re
import requests

# 获取网页内容
r = requests.get('http://www.163.com')
data = r.text

# 利用正则查找所有连接
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
    print url


首先import进re和requests模块,re模块是使用正则表达式的模块。

data = requests.get('http://www.163.com'),向网易首页提交get请求,得到一个requests对象r,r.text就是获得的网页源代码,保存在字符串data中。

再利用正则查找data中所有的链接,我的正则写的比较粗糙,直接把href=""或href=''之间的信息获取到,这就是我们要的链接信息。

re.findall返回的是一个列表,用for循环遍历列表并输出:

Python实现抓取页面上链接的简单爬虫分享

这是我获取到的所有连接的一部分。

上面是获取网站里所有链接的一个简单的实现,没有处理任何异常,没有考虑到超链接的类型,代码仅供参考。requests模块文档见附件。

标签:Python,页面,链接,爬虫
0
投稿

猜你喜欢

  • Python爬虫动态ip代理防止被封的方法

    2022-01-24 00:15:30
  • Python字符串中添加、插入特定字符的方法

    2021-05-14 00:16:53
  • pytorch 优化器(optim)不同参数组,不同学习率设置的操作

    2021-09-14 05:05:44
  • 一个二级伸缩下拉菜单代码

    2008-06-24 18:12:00
  • python将pandas datarame保存为txt文件的实例

    2021-11-17 06:21:51
  • 对python中类的继承与方法重写介绍

    2023-03-21 09:49:20
  • 使用Python解析JSON数据的基本方法

    2021-07-03 13:54:21
  • OpenCV哈里斯(Harris)角点检测的实现

    2022-10-07 01:41:26
  • python中的print()输出

    2023-06-27 18:07:03
  • Python入门学习之字符串与比较运算符

    2023-10-14 22:09:40
  • MIME Type 引出的两难困境

    2011-06-14 09:45:41
  • php实现mysql事务处理的方法

    2023-11-10 10:42:39
  • 一段ASP的HTTP_REFERER判断代码

    2011-03-25 10:41:00
  • Python中super().__init__()测试以及理解

    2023-08-25 02:22:04
  • DataReader深入解析:持续更新

    2023-07-11 06:24:08
  • 使用Python获取字典键对应值的两种方法

    2022-08-04 05:25:16
  • 实用PHP会员权限控制实现原理分析

    2023-11-23 11:32:39
  • 2008年情人节各网站节日Logo欣赏

    2008-02-17 14:12:00
  • Python的Django框架中TEMPLATES项的设置教程

    2022-09-23 03:16:09
  • Python中判断input()输入的数据的类型

    2023-03-14 17:02:15
  • asp之家 网络编程 m.aspxhome.com