Python打印scrapy蜘蛛抓取树结构的方法

作者：pythoner 时间：2022-01-16 03:46:18　

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单

#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
urls = allurls[referer]
for url in urls:
print ' '*indent + referer
if url in allurls:
print_urls(allurls, url, indent+2)
def main():
log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
allurls = defaultdict(list)
for l in fileinput.input():
m = log_re.search(l)
if m:
url, ref = m.groups()
allurls[ref] += [url]
print_urls(allurls, 'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

标签：Python,scrapy,蜘蛛

投稿

Python打印scrapy蜘蛛抓取树结构的方法

猜你喜欢

SQLServer 2005 控制用户权限访问表图文教程

Python面向对象程序设计类的多态用法详解

Go-ethereum 解析ethersjs中产生的签名信息思路详解

基于python内置函数与匿名函数详解

python密码学库pynacl功能介绍

pytest多重断言的实现

python 操作sqlite数据库的方法

深入理解Vue的数据响应式

MySQL 创建主键,外键和复合主键的语句

python实现将html表格转换成CSV文件的方法

解析MySQL索引的作用

Python玩转加密的技巧【推荐】

python实现简易数码时钟

JavaScript函数的调用以及参数传递

巧用缓存提高ASP应用程序的性能

利用location.hash实现跨域iframe自适应高宽

Python3 使用selenium插件爬取苏宁商家联系电话

Python将py文件编译为exe文件

简单谈谈python中的多进程

js实现类bootstrap模态框动画