Python爬虫获取页面所有URL链接过程详解

作者：程序员的人生A 时间：2022-01-31 10:48:46　

如何获取一个页面内所有URL链接？在Python中可以使用urllib对网页进行爬取，然后利用Beautiful Soup对爬取的页面进行解析，提取出所有的URL。

什么是Beautiful Soup？

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快。

全部代码：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
Upageurls[links.get("href")]=0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print "connect failed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1=time.time()
print t1-t2
n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage(http://news.163.com/)

利用BeautifulSoup还可以有针对性的获取网页链接：Python爬虫获取网页上的链接，通过beautifulsoup的findall()方法对匹配的标签进行查找。

来源：https://www.cnblogs.com/chengxuyuanaa/p/12986320.html

标签：Python,爬虫,页面,URL,链接

投稿

Python爬虫获取页面所有URL链接过程详解

猜你喜欢

python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

sql server not in 语句使程充崩溃

django 前端页面如何实现显示前N条数据

关于pycharm 切换 python3.9 报错 ‘HTMLParser‘ object has no attribute ‘unescape‘ 的问题

PyQT实现多窗口切换

PHP 截取字符串分别适合GB2312和UTF8编码情况

Python+Tkinter制作猜灯谜小游戏

Ext2.0.2经典的一个JS组件（带EXT中文手册）

Python 概率生成问题案例详解

在win和Linux系统中python命令行运行的不同

Python之如何调整图片的文件大小

python3读取文件指定行的三种方法

解析：MySQL 数据库搜索中大小写敏感性

python解析html提取数据，并生成word文档实例解析

ASP 关于动态数据显示页面得锚点

python 获取计算机的网卡信息

python异常和文件处理机制详解

AJAX实现web页面中级联菜单的设计

python设置环境变量的原因和方法

Oracle捕获问题SQL解决CPU过渡消耗

Python爬虫获取页面所有URL链接过程详解

猜你喜欢

python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

sql server not in 语句使程充崩溃

django 前端页面如何实现显示前N条数据

关于pycharm 切换 python3.9 报错 ‘HTMLParser‘ object has no attribute ‘unescape‘ 的问题

PyQT实现多窗口切换

PHP 截取字符串 分别适合GB2312和UTF8编码情况

Python+Tkinter制作猜灯谜小游戏

Ext2.0.2经典的一个JS组件（带EXT中文手册）

Python 概率生成问题案例详解

在win和Linux系统中python命令行运行的不同

Python之如何调整图片的文件大小

python3读取文件指定行的三种方法

解析：MySQL 数据库搜索中大小写敏感性

python解析html提取数据，并生成word文档实例解析

ASP 关于动态数据显示页面得锚点

python 获取计算机的网卡信息

python异常和文件处理机制详解

AJAX实现web页面中级联菜单的设计

python设置环境变量的原因和方法

Oracle捕获问题SQL解决CPU过渡消耗

PHP 截取字符串分别适合GB2312和UTF8编码情况