Python爬虫获取页面所有URL链接过程详解

作者:程序员的人生A 时间:2022-01-31 10:48:46 

如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。

什么是Beautiful Soup?

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快。

全部代码:


from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
 if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
  Upageurls[links.get("href")]=0
for links in Upageurls.keys():
 try:
  urllib2.urlopen(links).getcode()
 except:
  print "connect failed"
 else:
  t2=time.time()
  Upageurls[links]=urllib2.urlopen(links).getcode()
  print n,
  print links,
  print Upageurls[links]
  t1=time.time()
  print t1-t2
 n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接:Python爬虫获取网页上的链接,通过beautifulsoup的findall()方法对匹配的标签进行查找。

来源:https://www.cnblogs.com/chengxuyuanaa/p/12986320.html

标签:Python,爬虫,页面,URL,链接
0
投稿

猜你喜欢

  • python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

    2023-12-09 06:16:18
  • sql server not in 语句使程充崩溃

    2012-01-05 19:05:00
  • django 前端页面如何实现显示前N条数据

    2023-06-07 10:50:33
  • 关于pycharm 切换 python3.9 报错 ‘HTMLParser‘ object has no attribute ‘unescape‘ 的问题

    2023-11-25 16:27:55
  • PyQT实现多窗口切换

    2023-04-14 02:40:32
  • PHP 截取字符串 分别适合GB2312和UTF8编码情况

    2023-09-30 18:02:30
  • Python+Tkinter制作猜灯谜小游戏

    2021-09-24 19:43:17
  • Ext2.0.2经典的一个JS组件(带EXT中文手册)

    2009-04-13 12:24:00
  • Python 概率生成问题案例详解

    2023-11-26 19:04:58
  • 在win和Linux系统中python命令行运行的不同

    2023-08-03 05:16:22
  • Python之如何调整图片的文件大小

    2022-09-27 04:57:50
  • python3读取文件指定行的三种方法

    2023-03-23 12:27:20
  • 解析:MySQL 数据库搜索中大小写敏感性

    2009-02-23 17:32:00
  • python解析html提取数据,并生成word文档实例解析

    2023-10-19 13:50:38
  • ASP 关于动态数据显示页面得锚点

    2007-11-04 20:28:00
  • python 获取计算机的网卡信息

    2023-08-11 21:12:06
  • python异常和文件处理机制详解

    2023-12-13 11:46:13
  • AJAX实现web页面中级联菜单的设计

    2007-09-26 13:37:00
  • python设置环境变量的原因和方法

    2023-05-12 18:31:35
  • Oracle捕获问题SQL解决CPU过渡消耗

    2010-07-21 13:14:00
  • asp之家 网络编程 m.aspxhome.com