用Python程序抓取网页的HTML信息的一个小实例

作者:cyqian 时间:2021-02-14 12:52:05 

抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:
目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

用Python程序抓取网页的HTML信息的一个小实例

数据请求

真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定:


doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例,包含获取标签、链接,以及根据html层次结构遍历等方法。参考见这里。下面这个片段,从ittf网站上获取指定页面上指定位置的链接。


url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')
for atag in atags:
 #print atag
 if atag!=None and atag.get('href') != None:
   if "WR_Table_3_A2_Details.asp" in atag['href']:
     link = rank_link_pre + atag['href']
     links.append(link)
     mlfile.write(link+'\n')
     print 'fetch link: '+link
mlfile.close()

标签:Python
0
投稿

猜你喜欢

  • 开发Web应用程序的结构化过程

    2009-06-01 10:52:00
  • python中的列表和元组实例详解

    2023-07-26 23:04:12
  • 基于鼠标点击跟踪的用户点击行为分析

    2008-04-24 19:22:00
  • H1标签的定义

    2008-07-29 12:43:00
  • 解决“引入同一个JS文件在非IE6中正常,但IE6报错”的问题

    2009-04-03 11:42:00
  • 详解如何使用Python网络爬虫获取招聘信息

    2021-09-28 06:58:17
  • css基础教程布局篇之一

    2008-07-31 17:21:00
  • Oracle性能究极优化 下

    2010-07-30 13:25:00
  • 弹出网页窗口全详细攻略

    2008-04-18 12:10:00
  • python文件编译为pyc后运行的实现步骤

    2021-03-08 22:36:46
  • Python实现提取给定网页内的所有链接

    2022-03-29 19:01:11
  • http状态码一览表以及HTTP响应的返回头信息

    2010-03-31 14:45:00
  • 关于Python 列表的索引取值问题

    2022-09-08 05:39:54
  • Langchain集成管理prompt功能详解

    2022-12-13 22:56:31
  • 使用OpenCV校准鱼眼镜头的方法

    2022-04-02 01:58:48
  • php下pdo的mysql事务处理用法实例

    2023-11-14 17:44:13
  • python中文分词,使用结巴分词对python进行分词(实例讲解)

    2023-03-15 13:37:30
  • 跟老齐学Python之有容乃大的list(1)

    2021-08-17 00:27:09
  • oracle 查询表名以及表的列名

    2009-07-26 09:33:00
  • 发现几处IE与firefox的js和css几处不同点

    2008-02-02 10:15:00
  • asp之家 网络编程 m.aspxhome.com