用Python程序抓取网页的HTML信息的一个小实例
作者:cyqian 时间:2021-02-14 12:52:05
抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:
目标数据
将ittf网站上这个页面上所有这些选手的超链接保存下来。
数据请求
真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定:
doc = requests.get(url).text
解析html获得数据
以beautifulsoup为例,包含获取标签、链接,以及根据html层次结构遍历等方法。参考见这里。下面这个片段,从ittf网站上获取指定页面上指定位置的链接。
url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'
mlfile = open(linkfile,'a')
for atag in atags:
#print atag
if atag!=None and atag.get('href') != None:
if "WR_Table_3_A2_Details.asp" in atag['href']:
link = rank_link_pre + atag['href']
links.append(link)
mlfile.write(link+'\n')
print 'fetch link: '+link
mlfile.close()
标签:Python
0
投稿
猜你喜欢
开发Web应用程序的结构化过程
2009-06-01 10:52:00
python中的列表和元组实例详解
2023-07-26 23:04:12
基于鼠标点击跟踪的用户点击行为分析
2008-04-24 19:22:00
H1标签的定义
2008-07-29 12:43:00
解决“引入同一个JS文件在非IE6中正常,但IE6报错”的问题
2009-04-03 11:42:00
详解如何使用Python网络爬虫获取招聘信息
2021-09-28 06:58:17
css基础教程布局篇之一
2008-07-31 17:21:00
Oracle性能究极优化 下
2010-07-30 13:25:00
弹出网页窗口全详细攻略
2008-04-18 12:10:00
python文件编译为pyc后运行的实现步骤
2021-03-08 22:36:46
Python实现提取给定网页内的所有链接
2022-03-29 19:01:11
http状态码一览表以及HTTP响应的返回头信息
2010-03-31 14:45:00
关于Python 列表的索引取值问题
2022-09-08 05:39:54
Langchain集成管理prompt功能详解
2022-12-13 22:56:31
使用OpenCV校准鱼眼镜头的方法
2022-04-02 01:58:48
php下pdo的mysql事务处理用法实例
2023-11-14 17:44:13
python中文分词,使用结巴分词对python进行分词(实例讲解)
2023-03-15 13:37:30
跟老齐学Python之有容乃大的list(1)
2021-08-17 00:27:09
oracle 查询表名以及表的列名
2009-07-26 09:33:00
发现几处IE与firefox的js和css几处不同点
2008-02-02 10:15:00