Python使用urllib2模块抓取HTML页面资源的实例分享

作者:larry 时间:2022-11-14 13:32:50 

先把要抓取的网络地址列在单独的list文件中


https://www.jb51.net/article/83440.html
https://www.jb51.net/article/83437.html
https://www.jb51.net/article/83430.html
https://www.jb51.net/article/83449.html

然后我们来看程序操作,代码如下:


#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
if not os.path.exists(dpath):
 os.makedirs(dpath)
try:
 getfile = urllib2.urlopen(fileurl)
 data = getfile.read()
 f = open(fpath, 'w')
 f.write(data)
 f.close()
except:
print

with open('u1.list') as lines:
for line in lines:
 URI = line.strip()
 if '?' and '%' in URI:
  continue
elif URI.count('/') == 2:
  continue
 elif URI.count('/') > 2:
  #print URI,URI.count('/')
 try:
   dirpath = URI.rpartition('/')[0].split('//')[1]
   #filepath = URI.split('//')[1].split('/')[1]
   filepath = URI.split('//')[1]
  if filepath:
    print URI,filepath,dirpath
    Cdown_data(URI, filepath, dirpath)
  except:
   print URI,'error'

来源:http://www.diyoms.com/python/1806.html

标签:Python,urllib2
0
投稿

猜你喜欢

  • Python之os模块案例详解

    2021-06-18 15:09:38
  • Windows 系统下的 Git 2.7 最新下载及安装教程图文详解

    2022-02-07 01:08:47
  • 详解用pyecharts Geo实现动态数据热力图城市找不到问题解决

    2022-02-04 14:10:29
  • HTML5 离线存储之Web SQL

    2011-06-19 14:13:19
  • python 窃取摄像头照片的实现示例

    2021-12-27 19:16:11
  • python 判断三个数字中的最大值实例代码

    2021-03-23 00:01:04
  • golang常用库之pkg/errors包第三方错误处理包案例详解

    2024-02-14 09:20:38
  • nicedit 轻量级编辑器 使用心得

    2023-03-03 23:49:08
  • 超详细mysql left join,right join,inner join用法分析

    2024-01-22 00:21:05
  • MySQL中使用表别名与字段别名的基本教程

    2024-01-12 19:39:15
  • Python抓取数据到可视化全流程的实现过程

    2021-06-14 02:03:28
  • mysql语句实现简单的增、删、改、查操作示例

    2024-01-24 23:04:04
  • swoole_process实现进程池的方法示例

    2024-06-05 15:40:23
  • 在Python的Flask框架下使用sqlalchemy库的简单教程

    2021-02-23 23:58:40
  • vue 代码压缩优化方式

    2024-04-09 10:44:46
  • asp下实现代码的“运行代码”“复制代码”“保存代码”功能源码

    2011-04-14 10:39:00
  • 自定义Django Form中choicefield下拉菜单选取数据库内容实例

    2024-01-25 09:02:02
  • MySQL 数据库的监控方式小结

    2024-01-14 19:07:14
  • vue+vux实现移动端文件上传样式

    2024-05-02 16:34:40
  • python爬虫 正则表达式解析

    2022-07-16 18:24:01
  • asp之家 网络编程 m.aspxhome.com