Python爬虫框架Scrapy常用命令总结

作者:喷跑的豆子 时间:2022-02-21 20:45:23 

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:

在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令

全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示:

Python爬虫框架Scrapy常用命令总结

可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetch、runspider、settings、shell、startproject、version、view。

fetch命令

fetch命令主要用来显示爬虫爬取的过程.如下图所示:

Python爬虫框架Scrapy常用命令总结

在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h列出所有可以使用的fetch相关参数。比如我们可以使用–headers显示头信息,也可以使用–nolog控制不显示日志信息,还可以使用–spider=SPIDER参数来控制使用哪个爬虫,通过–logfile=FILE指定存储日志信息的文件,通过–loglevel=LEVEL控制日志等级。举个栗子:


# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通过runspider命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件


# first.py为自定义的一个爬虫文件
scrapy runspider first.py

settings命令

在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息


# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME

shell命令

通过shell命令可以启动Scrapy的交互终端。

Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。

Python爬虫框架Scrapy常用命令总结

在>>>后面可以输入交互命令以及相应的代码

startproject命令

用于创建scrapy项目

version命令

查看scrapy版本

view命令

用于下载某个网页,然后通过浏览器查看

项目命令

bench命令

测试本地硬件的性能


scrapy bench

genspider命令

用于创建爬虫文件,这是一种快速创建爬虫文件的方式。


# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬虫模板。当前可用的爬虫模板有:basic、crawl、csvfeed、xmlfeed

check命令

使用check命令可以实现对某个爬虫文件进行合同检查,即测试.


# xxx为爬虫名
scrapy check xxx

crawl命令

启动某个爬虫


# xxx为爬虫名
scrapy crawl xxx

list命令

列出当前可使用的爬虫文件


scrapy list

edit命令

编辑爬虫文件


scrapy edit xxx

parse命令

通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析

日志等级

等级名含义
CRITICAL发生了最严重的错误
ERROR发生了必须立即处理的错误
WARNING出现了一些警告信息,即存在潜在错误
INFO输出一些提示显示
DEBUG输出一些调试信息

希望本文所述对大家Python程序设计有所帮助。

来源:https://blog.csdn.net/y472360651/article/details/75194621

标签:Python,爬虫框架,Scrapy
0
投稿

猜你喜欢

  • Laravel使用PHPQRCODE实现生成带有LOGO的二维码图片功能示例

    2024-05-03 15:28:12
  • python 对象真假值的实例(哪些视为False)

    2021-11-18 02:50:49
  • 原生js实现查找/添加/删除/指定元素的class

    2024-04-18 09:44:46
  • Django模板过滤器和继承示例详解

    2023-10-25 16:52:56
  • python爬取淘宝商品销量信息

    2023-06-01 14:59:03
  • 如何在mac环境中用python处理protobuf

    2021-02-26 08:42:06
  • pytorch cuda上tensor的定义 以及减少cpu的操作详解

    2022-08-01 15:34:02
  • pycharm 如何取消连按两下shift出现的全局搜索

    2023-08-24 17:44:12
  • 从0到1构建vueSSR项目之路由的构建

    2024-05-09 09:52:33
  • msxml3.dll 错误解决办法

    2009-05-25 18:02:00
  • Pandas进行数据编码的十种方式总结

    2021-10-17 19:05:56
  • 用CSS实现图片等比例缩放

    2008-01-18 21:10:00
  • 详解Python魔法方法之描述符类

    2023-12-17 04:59:59
  • python案例练习合集

    2021-03-04 15:30:27
  • JS中的forEach、$.each、map方法推荐

    2024-04-29 13:19:59
  • 一文带你掌握Python中文词频统计

    2022-11-17 21:02:00
  • PHP实现登录注册之BootStrap表单功能

    2024-05-11 09:07:25
  • 快速解决cv2.imread()读取图像为BGR的问题

    2023-03-11 12:13:16
  • Go语言中Goroutine的设置方式

    2024-05-13 10:40:43
  • Python产生一个数值范围内的不重复的随机数的实现方法

    2023-09-19 21:48:09
  • asp之家 网络编程 m.aspxhome.com