Pycharm安装scrapy及初始化爬虫项目的完整步骤

作者:_码农耕地人 时间:2023-04-03 10:49:43 

一)安装scrapy:

1、打开cmd命令窗口,输入:pip install Scrapy。

2、安装成功之后会显示下面字符,表示未将scrapy设置到环境变量。

Pycharm安装scrapy及初始化爬虫项目的完整步骤

3、配置环境变量:右键我的电脑-->属性-->高级设置--->环境变量---->系统变量中的Path--->编辑--->添加--->将上文中黄色的路径添加到环境变量即可。

4、scrapy安装完毕。

二)创建一个scrapy爬虫项目:

1、创建一个普通的Pycharm项目,然后找到下面的terminal

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 2、输入命令scrapy startproject 模块名称(可以自己随便起,我以名为mine为例),成功之后你会发现自己的项目中多了一个mine的包文件。

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 3、上述操作成功后终端会显示下图文字:此时我们输入cd那条命令。进入目标文件。

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 4、这时就可以创建爬虫目标文件啦,

        输入scrapy genspider 爬取名 网站域名

1、爬取名是自己随便起的,比如我要爬百度那么我就可以起名为baidu

2、网站域名就是去掉  https:www.  剩下的部分,以博客园的为例:

网址为:https://www.cnblogs.com/

域名为 cnblogs.com

 2和3操作截图: 

Pycharm安装scrapy及初始化爬虫项目的完整步骤

5、此时我们会在目录里看见一个新的py文件:里自动生成如下代码:

Pycharm安装scrapy及初始化爬虫项目的完整步骤

Pycharm安装scrapy及初始化爬虫项目的完整步骤

三)开启pycharm对scrapy框架的调试功能:

由于pycharm没有创建scrapy框架的模块,所以我们想调试scrapy程序时要自己写一个小脚本来开启pycharm对scrapy的调试功能。

 1、在与mine包同级条件下创建一个main.py文件:

Pycharm安装scrapy及初始化爬虫项目的完整步骤

 2、mine文件将一下代码赋值进去:

import os
import sys

from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "cnblog"])  # 第三个参数为自己创建的那个爬取的名称

 这样就大功告成啦!

来源:https://blog.csdn.net/weixin_60414376/article/details/124023917

标签:pycharm,安装,scrapy
0
投稿

猜你喜欢

  • 给ubuntu18安装python3.7的详细教程

    2022-11-02 16:34:57
  • Python操作MySQL数据库的两种方式实例分析【pymysql和pandas】

    2024-01-13 13:34:59
  • vue实现购物车功能(商品分类)

    2023-07-02 16:34:30
  • JavaScript 中的 this 绑定规则详解

    2024-04-30 08:53:15
  • tensorflow 大于某个值为1,小于为0的实例

    2023-06-12 03:00:43
  • 浅析Python 实现一个自动化翻译和替换的工具

    2021-12-03 20:48:25
  • JavaScript如何动态监听DOM元素高度详解

    2024-05-22 10:32:00
  • 怎么解决pycharm license Acti的方法

    2022-12-27 10:36:39
  • js实现一个日期联动下拉菜单

    2007-08-04 20:49:00
  • python3.8.3安装教程及环境配置的详细教程(64-bit)

    2023-03-01 05:21:10
  • 卸载安装Node.js与npm过程详解

    2024-05-13 09:29:58
  • 打造通用ASP.NET数据分页控件

    2007-08-18 13:27:00
  • python实现csdn全部博文下载并转PDF

    2023-08-13 05:26:41
  • 混淆矩阵Confusion Matrix概念分析翻译

    2022-07-05 15:08:56
  • python去除字符串中的空格、特殊字符和指定字符的三种方法

    2022-06-12 20:21:31
  • 用pandas中的DataFrame时选取行或列的方法

    2023-05-15 07:43:04
  • 利用Go语言实现Raft日志同步

    2024-03-15 02:55:20
  • JavaScript获取一个范围内日期的方法

    2024-04-28 09:50:33
  • python2爬取百度贴吧指定关键字和图片代码实例

    2022-10-12 09:03:44
  • 使用python解析json字段的3种方式实例

    2021-12-24 04:16:27
  • asp之家 网络编程 m.aspxhome.com