Python打印scrapy蜘蛛抓取树结构的方法

作者:pythoner 时间:2022-01-16 03:46:18 

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单


#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
 urls = allurls[referer]
 for url in urls:
   print ' '*indent + referer
   if url in allurls:
     print_urls(allurls, url, indent+2)
def main():
 log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
 allurls = defaultdict(list)
 for l in fileinput.input():
   m = log_re.search(l)
   if m:
     url, ref = m.groups()
     allurls[ref] += [url]
 print_urls(allurls, 'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

标签:Python,scrapy,蜘蛛
0
投稿

猜你喜欢

  • SQLServer 2005 控制用户权限访问表图文教程

    2024-01-28 02:10:57
  • Python面向对象程序设计类的多态用法详解

    2021-05-28 20:21:29
  • Go-ethereum 解析ethersjs中产生的签名信息思路详解

    2023-08-05 21:34:49
  • 基于python内置函数与匿名函数详解

    2021-02-02 08:27:26
  • python密码学库pynacl功能介绍

    2021-03-07 01:29:44
  • pytest多重断言的实现

    2021-10-12 03:30:25
  • python 操作sqlite数据库的方法

    2024-01-26 04:18:43
  • 深入理解Vue的数据响应式

    2024-05-09 09:39:15
  • MySQL 创建主键,外键和复合主键的语句

    2024-01-20 05:40:51
  • python实现将html表格转换成CSV文件的方法

    2023-08-25 00:48:41
  • 解析MySQL索引的作用

    2024-01-20 09:51:03
  • Python玩转加密的技巧【推荐】

    2023-06-26 07:01:31
  • python实现简易数码时钟

    2023-09-20 12:32:57
  • JavaScript函数的调用以及参数传递

    2024-04-18 10:32:30
  • 巧用缓存提高ASP应用程序的性能

    2008-03-09 15:23:00
  • 利用location.hash实现跨域iframe自适应高宽

    2009-08-02 20:31:00
  • Python3 使用selenium插件爬取苏宁商家联系电话

    2023-12-20 01:39:57
  • Python将py文件编译为exe文件

    2023-07-29 10:05:36
  • 简单谈谈python中的多进程

    2023-05-13 15:19:17
  • js实现类bootstrap模态框动画

    2024-04-18 09:31:12
  • asp之家 网络编程 m.aspxhome.com