用Python程序抓取网页的HTML信息的一个小实例

作者：cyqian 时间：2021-02-14 12:52:05　

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据（通常需要登录验证）、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：
目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

数据请求

真的很喜欢符合人类思维的库，比如requests，如果是要直接拿网页文本，一句话搞定：

doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例，包含获取标签、链接，以及根据html层次结构遍历等方法。参考见这里。下面这个片段，从ittf网站上获取指定页面上指定位置的链接。

url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')
for atag in atags:
#print atag
if atag!=None and atag.get('href') != None:
if "WR_Table_3_A2_Details.asp" in atag['href']:
link = rank_link_pre + atag['href']
links.append(link)
mlfile.write(link+'\n')
print 'fetch link: '+link
mlfile.close()

标签：Python

投稿

用Python程序抓取网页的HTML信息的一个小实例

猜你喜欢

开发Web应用程序的结构化过程

python中的列表和元组实例详解

基于鼠标点击跟踪的用户点击行为分析

H1标签的定义

解决“引入同一个JS文件在非IE6中正常，但IE6报错”的问题

详解如何使用Python网络爬虫获取招聘信息

css基础教程布局篇之一

Oracle性能究极优化下

弹出网页窗口全详细攻略

python文件编译为pyc后运行的实现步骤

Python实现提取给定网页内的所有链接

http状态码一览表以及HTTP响应的返回头信息

关于Python 列表的索引取值问题

Langchain集成管理prompt功能详解

使用OpenCV校准鱼眼镜头的方法

php下pdo的mysql事务处理用法实例

python中文分词,使用结巴分词对python进行分词(实例讲解)

跟老齐学Python之有容乃大的list(1)

oracle 查询表名以及表的列名

发现几处IE与firefox的js和css几处不同点

用Python程序抓取网页的HTML信息的一个小实例

猜你喜欢

开发Web应用程序的结构化过程

python中的列表和元组实例详解

基于鼠标点击跟踪的用户点击行为分析

H1标签的定义

解决“引入同一个JS文件在非IE6中正常，但IE6报错”的问题

详解如何使用Python网络爬虫获取招聘信息

css基础教程布局篇之一

Oracle性能究极优化 下

弹出网页窗口全详细攻略

python文件编译为pyc后运行的实现步骤

Python实现提取给定网页内的所有链接

http状态码一览表以及HTTP响应的返回头信息

关于Python 列表的索引取值问题

Langchain集成管理prompt功能详解

使用OpenCV校准鱼眼镜头的方法

php下pdo的mysql事务处理用法实例

python中文分词,使用结巴分词对python进行分词(实例讲解)

跟老齐学Python之有容乃大的list(1)

oracle 查询表名以及表的列名

发现几处IE与firefox的js和css几处不同点

Oracle性能究极优化下