Python打印scrapy蜘蛛抓取树结构的方法
作者:pythoner 时间:2022-01-16 03:46:18
本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:
通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单
#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
urls = allurls[referer]
for url in urls:
print ' '*indent + referer
if url in allurls:
print_urls(allurls, url, indent+2)
def main():
log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
allurls = defaultdict(list)
for l in fileinput.input():
m = log_re.search(l)
if m:
url, ref = m.groups()
allurls[ref] += [url]
print_urls(allurls, 'None')
main()
希望本文所述对大家的Python程序设计有所帮助。
标签:Python,scrapy,蜘蛛
0
投稿
猜你喜欢
SQLServer 2005 控制用户权限访问表图文教程
2024-01-28 02:10:57
Python面向对象程序设计类的多态用法详解
2021-05-28 20:21:29
Go-ethereum 解析ethersjs中产生的签名信息思路详解
2023-08-05 21:34:49
基于python内置函数与匿名函数详解
2021-02-02 08:27:26
python密码学库pynacl功能介绍
2021-03-07 01:29:44
pytest多重断言的实现
2021-10-12 03:30:25
python 操作sqlite数据库的方法
2024-01-26 04:18:43
深入理解Vue的数据响应式
2024-05-09 09:39:15
MySQL 创建主键,外键和复合主键的语句
2024-01-20 05:40:51
python实现将html表格转换成CSV文件的方法
2023-08-25 00:48:41
解析MySQL索引的作用
2024-01-20 09:51:03
Python玩转加密的技巧【推荐】
2023-06-26 07:01:31
python实现简易数码时钟
2023-09-20 12:32:57
JavaScript函数的调用以及参数传递
2024-04-18 10:32:30
巧用缓存提高ASP应用程序的性能
2008-03-09 15:23:00
利用location.hash实现跨域iframe自适应高宽
2009-08-02 20:31:00
Python3 使用selenium插件爬取苏宁商家联系电话
2023-12-20 01:39:57
Python将py文件编译为exe文件
2023-07-29 10:05:36
简单谈谈python中的多进程
2023-05-13 15:19:17
js实现类bootstrap模态框动画
2024-04-18 09:31:12