Python使用urllib2模块抓取HTML页面资源的实例分享
作者:larry 时间:2022-11-14 13:32:50
先把要抓取的网络地址列在单独的list文件中
https://www.jb51.net/article/83440.html
https://www.jb51.net/article/83437.html
https://www.jb51.net/article/83430.html
https://www.jb51.net/article/83449.html
然后我们来看程序操作,代码如下:
#!/usr/bin/python
import os
import sys
import urllib2
import re
def Cdown_data(fileurl, fpath, dpath):
if not os.path.exists(dpath):
os.makedirs(dpath)
try:
getfile = urllib2.urlopen(fileurl)
data = getfile.read()
f = open(fpath, 'w')
f.write(data)
f.close()
except:
with open('u1.list') as lines:
for line in lines:
URI = line.strip()
if '?' and '%' in URI:
continue
elif URI.count('/') == 2:
continue
elif URI.count('/') > 2:
#print URI,URI.count('/')
try:
dirpath = URI.rpartition('/')[0].split('//')[1]
#filepath = URI.split('//')[1].split('/')[1]
filepath = URI.split('//')[1]
if filepath:
print URI,filepath,dirpath
Cdown_data(URI, filepath, dirpath)
except:
print URI,'error'
来源:http://www.diyoms.com/python/1806.html
标签:Python,urllib2
0
投稿
猜你喜欢
Python之os模块案例详解
2021-06-18 15:09:38
Windows 系统下的 Git 2.7 最新下载及安装教程图文详解
2022-02-07 01:08:47
详解用pyecharts Geo实现动态数据热力图城市找不到问题解决
2022-02-04 14:10:29
HTML5 离线存储之Web SQL
2011-06-19 14:13:19
python 窃取摄像头照片的实现示例
2021-12-27 19:16:11
python 判断三个数字中的最大值实例代码
2021-03-23 00:01:04
golang常用库之pkg/errors包第三方错误处理包案例详解
2024-02-14 09:20:38
nicedit 轻量级编辑器 使用心得
2023-03-03 23:49:08
超详细mysql left join,right join,inner join用法分析
2024-01-22 00:21:05
MySQL中使用表别名与字段别名的基本教程
2024-01-12 19:39:15
Python抓取数据到可视化全流程的实现过程
2021-06-14 02:03:28
mysql语句实现简单的增、删、改、查操作示例
2024-01-24 23:04:04
swoole_process实现进程池的方法示例
2024-06-05 15:40:23
在Python的Flask框架下使用sqlalchemy库的简单教程
2021-02-23 23:58:40
vue 代码压缩优化方式
2024-04-09 10:44:46
asp下实现代码的“运行代码”“复制代码”“保存代码”功能源码
2011-04-14 10:39:00
自定义Django Form中choicefield下拉菜单选取数据库内容实例
2024-01-25 09:02:02
MySQL 数据库的监控方式小结
2024-01-14 19:07:14
vue+vux实现移动端文件上传样式
2024-05-02 16:34:40
python爬虫 正则表达式解析
2022-07-16 18:24:01